Переизбыток доступных данных способствовал сегодняшнему всплеску внедрения искусственного интеллекта и его генеративных возможностей в большей степени, чем какой-либо другой фактор. Сбор, очистка, систематизация и защита данных фактически превратились для искусственного интеллекта и машинного обучения в самостоятельный проект – процесс управления, в котором важную роль играют сами инструменты ИИ. Результатом всего этого может стать значительное улучшение управления данными, которое принесет пользу всему предприятию.
База данных остается основным хранилищем данных, но экосистема инструментов управления данными на основе искусственного интеллекта (включая продукты стартапов, которым может пока не хватать стойкости и полноценного понимания всех нюансов функционирования баз данных) уже получает повсеместное распространение. Со временем с предлагаемым программным обеспечением для баз данных и облачными сервисами, очевидно, будет интегрироваться все больше функций управления.
Применение ИИ для автоматизации управления данными способно приносить немедленную отдачу. Чем лучше предприятие управляет своими данными, тем лучше сотрудники, занимающиеся машинным обучением, могут использовать эти данные для создания приложений на базе искусственного интеллекта. В более широком смысле добавление искусственного интеллекта к управлению данными оказывает положительное влияние на их аналитику, соблюдение нормативных требований и повышение качества данных в любой отдельно взятой организации.
Рассмотрим подробнее, каким образом ИИ модернизирует процессы, связанные с управлением, и как инструменты, улучшенные с его помощью, способствуют успеху как приложений искусственного интеллекта и машинного обучения, так и процесса обработки данных в целом.
Каталогизация данных
Знаете ли вы, где находятся ваши данные? Для эффективного управления организациям необходима полная инвентаризация всех основных хранилищ данных и понимание того, что в них содержится. Задача идентификации корпоративных данных, доступа к ним и их классификации становится все более сложной в том числе и из-за бесконтрольного распространения облачных хранилищ данных, не говоря уже о наличии полуструктурированных журналов, используемых для выявления операционных тенденций и аномалий. Программное обеспечение для каталогизации данных позволяет составить подробную схему этих хранилищ.
Искусственный интеллект может помочь на всех этапах каталогизации данных организации, начиная с автоматического обнаружения хранилищ данных, имеющих отношение к предприятию. Спектр инструментов каталогизации варьируется в широких пределах. Некоторые используют ИИ в том числе и для определения политик контроля доступа и организации поиска на естественном языке. Каталогизация на основе искусственного интеллекта значительно сокращает объем ручного труда, связанного с классификацией информационных ресурсов, и выявляет происхождение данных, показывая, откуда они берутся и как менялись.
Управление метаданными
Эффективное управление метаданными, то есть информацией, описывающей данные компании, имеет основополагающее значение для успешного управления. Инструменты каталогизации на основе искусственного интеллекта позволяют идентифицировать метаданные для правильной классификации информационных ресурсов. Кроме того, управление метаданными имеет жизненно важное значение для надежной работы с данными. Широкий спектр существующих предложений – от программного обеспечения для интеграции данных до платформ наблюдения за ними – открывает новые возможности и для управления метаданными.
Инструменты управления метаданными, основанные на искусственном интеллекте, облегчают процесс ручной классификации данных и помогают устранять различия в описаниях метаданных. В прошлом предприятия оперировали относительно статичными метаданными, но сегодня инструменты ИИ непрерывно отслеживают и собирают динамическую информацию о хранении, использовании и перемещении потоков данных. Помимо других преимуществ, метаданные, подробно описывающие ресурсы данных, могут использоваться для выдачи на основе ИИ рекомендаций по оптимизации платформ хранения и даже для определения потенциальных путей интеграции данных.
Качество данных
Наибольшее влияние ИИ оказал на качество данных, которое характеризуется шестью основными аспектами: точностью, полнотой, согласованностью, уникальностью, своевременностью и достоверностью. Очевидно, что при отсутствии у данных этих свойств риск катастрофических последствий в результате операционной деятельности заметно возрастает. А специалистам, занимающимся наукой о данных, и аналитикам приходится прилагать титанические усилия к очистке данных, прежде чем их можно будет использовать.
Инструменты искусственного интеллекта и машинного обучения позволяют автоматически находить пропущенные значения, осуществлять нормализацию форматов данных, выявлять аномалии в них и выполнять многие другие функции. Конечно, решения (например, идет ли в случае одинаковых имен речь об одном и том же или о разных клиентах) людям по-прежнему приходится принимать самостоятельно, но общая экономия времени оказывается огромной. По мере того, как инструменты искусственного интеллекта находят все больше закономерностей в обширных объемах данных, выдаваемые ими рекомендации, обнаруживаемые корреляции и вносимые коррективы постоянно улучшаются. Соответствующие критерии используются при организации мониторинга качества данных в режиме реального времени.
Моделирование данных
Структурирование базы данных – или всей архитектуры данных – начинается со сбора и анализа требований к данным, а также с разработки логических и физических моделей, обеспечивающих соответствие этим требованиям. В ряде продуктов искусственный интеллект позволяет архитекторам данных и инженерам легко создавать визуальные представления моделей данных.
Сегодня на многих предприятиях моделирование данных направлено на обслуживание приложений искусственного интеллекта и машинного обучения. Некоторые инструменты обработки данных с использованием ИИ предлагают автоматизированное конструирование признаков (feature engineering), при котором ключевые характеристики извлекаются из наборов данных, предназначенных для подготовки к обучению ИИ. В сочетании с автоматическим машинным обучением это позволяет подбирать модели разных типов, определяя наиболее подходящие для конкретных приложений и прогнозной аналитики. Если данных для эффективного обучения модели оказывается слишком мало, инструменты моделирования на основе искусственного интеллекта могут использовать существующие хранилища и генерировать синтетические данные, которые очень похожи на реальные.
Политика данных и управление их жизненным циклом
Политику обработки своих данных организациям необходимо определять на основе федеральных, государственных, отраслевых и международных нормативных актов, а также внутренних бизнес-правил. На крупных предприятиях создаются комитеты по управлению данными, которые устанавливают соответствующие правила и разъясняют порядок их выполнения. Описывается все это в специальном документе, который дополняется по мере изменения правил и процедур. Поддержка естественного языка генеративным искусственным интеллектом позволяет автоматизировать создание черновых вариантов такой документации и значительно облегчает внесение в нее последующих изменений.
Анализируя шаблоны использования данных, нормативные требования и внутренние рабочие процессы, ИИ помогает организациям определять и внедрять политику хранения, а также автоматически идентифицировать данные, срок службы которых истек. Искусственный интеллект способен инициировать даже процедуры архивации и удаления. Наряду со снижением рисков и обеспечением выполнения нормативных требований автоматизация архивирования данных создает условия для освобождения места и сокращения затрат на хранение.
Готовность данных
Системы аварийного восстановления на базе искусственного интеллекта помогают организациям разрабатывать эффективные стратегии восстановления, прогнозируя возможные сценарии сбоев и принимая превентивные меры для минимизации простоев и исключения потери данных. Системы резервного копирования, основанные на искусственном интеллекте, гарантируют целостность резервных копий и автоматически инициируют процедуры восстановления потерянных или поврежденных данных в случае сбоя.
Системы управления хранением на базе ИИ реплицируют и распределяют данные по нескольким хранилищам, обеспечивая высокий уровень их готовности и низкую задержку. Средства прогнозной аналитики на основе искусственного интеллекта собирают данные с датчиков, из журналов оборудования и архивных записей систем технического обслуживания в целях минимизации потенциальных сбоев или простоев. Для предотвращения снижения уровня готовности данных профилактические меры важны, как ничто иное.
Человек по-прежнему необходим
С управлением данными искусственный интеллект по большей части справляется достаточно легко. Многие задачи (от обнаружения данных и их очистки до управления политиками), связанные с управлением и выполняемые сегодня во многом вручную, не представляют для ИИ особых сложностей и решаются им с более высокой точностью по сравнению с людьми. И это уже большая победа, особенно если учесть, что для операций машинного обучения нужны очищенные и упорядоченные хранилища данных, на основе которых можно создавать и обучать приложения искусственного интеллекта.
Следует, однако, помнить, что искусственный интеллект не обладает в полной мере разумом в том смысле, который мы вкладываем в это слово. Для устранения даже незначительных расхождений в данных может понадобиться анализ контекста и опыт, который способны приобрести только люди. Очевидно, никто не станет сегодня поручать машине создание корпоративной архитектуры данных. Да, искусственный интеллект уже сейчас способен исключить значительную часть ручного труда при управлении данными. Но он не сможет решать за вас все.