Проблемы с данными — одна из главных причин, почему проекты искусственного интеллекта не оправдывают ожиданий. Но если учиться на ошибках и работать на перспективу, усилия, скорее всего, окупятся.
Читать...
Полтора года назад компания Mr. Cooper запустила интеллектуальную систему рекомендаций для своих агентов по обслуживанию, которая должна была помочь в решении проблем клиентов. (Компания, ранее известная как Nationstar, — крупнейший игрок рынка небанковского ипотечного кредитования в США с 3,8 млн клиентов.) Казалось, проект сэкономит предприятию огромные деньги. Потребовалось девять месяцев, чтобы выяснить, что агенты не использовали его, признает ИТ-директор компании Шридхар Шарма. И еще полгода, чтобы понять, почему.
Рекомендации, которые предлагала система, не были релевантными, обнаружил Шарма. Но проблема заключалась не в алгоритмах машинного обучения, а в том, что обучение полагалось на данные, основанные на технических описаниях проблем клиентов, а не на том, как клиенты описывали их своими словами.
«Мы проделали недостаточно хорошую работу, поэтому не поняли того, что суть проблемы пользователей кроется в словах, которые употребляют именно они, – сказал он. – Мы же в своей программе использовали только те термины, которые сами используем внутри компании».
Кроме того, механизм обратной связи, в котором агенты записывали результаты звонков, имел перекрывающиеся категории проблем, что, по словам ИТ-директора, еще больше усугубило проблему. Шарма отказался сообщить, во сколько проект обошелся компании.
|
Многие неудачи при попытках поставить себе на службу технологии искусственного интеллекта связаны не с построением моделей, а с непродуманным отношением к данным. Их нехватка, однобокость, проблемы интеграции, а также неучтенная динамика (так называемый дрейф) и пренебрежение неструктурированными данными - все это факторы, способные приговорить даже самый перспективный проект к провалу.
Хотите поговорить об этом? Обсудим все проблемы 24 сентября в рамках форума "Управление данными 2019".
|
Такая неудачная «вылазка» Mr. Cooper в область искусственного интеллекта — не аномалия. Согласно недавнему опросу IDC, только около 30% компаний сообщили, что 9 из 10 их проектов, связанных с искусственным интеллектом, были успешны. У большинства провальны около половины подобных проектов; 3% опрошенных заявили, что более половины их проектов искусственного интеллекта потерпели неудачу.
В качестве основных проблем более четверти респондентов назвали нехватку квалифицированного персонала и нереалистичные ожидания в отношении этой технологии. Еще 23% заявили, что их проекты потерпели неудачу из-за отсутствия необходимых данных.
«При первых признаках неудачи все пытаются приложить дополнительные усилия, чтобы "вытащить" проект, – говорит Шарма. – Но если вы ввязываетесь в это, то вы обречены».
Mr. Cooper вернется к проекту в области обслуживания клиентов в следующем году в рамках общей перезагрузки своей системы CRM; компания по-прежнему настроена иметь дело с искусственным интеллектом. Ее последний проект машинного обучения, который включает в себя анализ неструктурированных данных, уже имеет положительный бизнес-эффект и помогает готовить лучшие данные для обучения.
«Эти уроки недешевы», – признает Шарма, добавляя, что требуется вовлеченность генерального и финансового директора: они должны быть в курсе, если что-то идет не так.
Нехватка данных
Проблемы с данными — одна из главных причин, почему проекты искусственного интеллекта не оправдывают ожиданий. Согласно докладу, опубликованному McKinsey прошлой осенью, две из самых больших проблем, ограничивающих применение технологий искусственного интеллекта, связаны именно с данными.
Во-первых, подобно Mr. Cooper, многие компании испытывают трудности с получением правильно размеченных данных для обучения алгоритмов машинного обучения. Если данные не классифицированы должным образом, нужно время, чтобы разметить их, что может задержать работу или вообще привести проект к провалу. Вторая проблема с данными – это отсутствие нужных данных для проекта.
«У компаний часто нет необходимых данных или же они не могут строить модели с данными, поскольку те не размечены», – говорит Ананд Рао, партнер и глобальный лидер по искусственному интеллекту в PricewaterhouseCoopers.
Национальное Одюбоновское общество использует искусственный интеллект, чтобы защитить диких птиц. Так, в июле организация опубликовала результаты анализа того, как изменение климата повлияет на 38 видов луговых птиц.
«Если мы ничего не сделаем, чтобы замедлить изменение климата, то 42% видов луговых птиц окажутся очень уязвимыми, – говорит Чад Уилси, вице-президент по исследованиям в области сохранения видов. – Но если мы сможем принять меры, то уменьшим этот показатель до 8%».
Не все аналогичные проекты Одюбоновского общества были столь же успешными. Прошлым летом в организации попытались использовать машинное обучение для подсчета количества коричневых пеликанов и черных водорезов на пляжах. Пилотный проект был основан на наборе изображений, собранных добровольцем, который запускал дрона над островом у побережья Техаса.
«Нам было интересно понять, как ураган, который прошел над островом, повлиял на популяцию птиц», – говорит Уилси.
По словам Уилси, потребовалось 2 тыс. размеченных изображений коричневых пеликанов, прежде чем точность системы была достаточно хороша для их нужд. Но изображений черных водорезов было недостаточно. «Для других приложений компьютерного зрения вы можете использовать то, что доступно в Интернете, – говорит он. – Но в данном случае, образы птиц очень специфичны».
Так, большинство доступных фотографий птиц сделаны людьми, которые находятся на уровне земли, а не дронами, «смотрящими» прямо вниз. И поскольку это было пилотное исследование, у Одюбоновского общества не было ресурсов, чтобы продолжить сбор данных и сделать больше снимков.
«Однобокость» данных обучения
Другим примером проекта, которому помешала нехватка данных, является попытка Fritz Labs создать модель для идентификации волос на фотографиях людей. Fritz помогает разработчикам создавать модели, которые могут работать непосредственно на телефонах, без необходимости отправлять данные на центральный сервер для обработки.
«Мы хотели создать функцию, которая будет "обнаруживать" волосы в живом видео и прямо в нем изменять их цвет», – сказал Джеймсон Тул, технический директор компании.
Сначала все выглядело хорошо, говорит он, но у алгоритма обнаружился существенный изъян, который привел бы к очень серьезным проблемам, стань приложение публичным.
«К счастью, мы много тестировали функцию на самих себе и с людьми, которых привлекли специально для этого, и обнаружили, что функция работает не очень хорошо для определенных этнических групп, – отметил Тул. – Мы еще раз просмотрели исходные данные — и, конечно же, среди них не было изображений представителей этих групп».
По его словам, для обучения доступно множество наборов изображений, как бесплатных, так и коммерческих. Но необходимо убедиться — достаточно ли тех данных, которые нужны.
«Требуется время и усилия, чтобы сформировать собственный набор тестовых случаев, который исчерпывающим образом представляет пользовательскую базу вашего приложения», – подчеркнул Тул.
В Fritz Labs собрали недостающие изображения и разметили их вручную. «Это, безусловно, подчеркивает тот факт, что в подобных системах может легко случиться какой-то перекос, когда вы ограничены данными, которые у вас есть», – добавил он.
Согласно недавнему опросу PricewaterhouseCoopers, более половины компаний не имеют формального процесса оценки данных приложений искусственного интеллекта на «необъективность» данных. Кроме того, только 25% опрошенных заявили, что будут уделять приоритетное внимание этическим последствиям проектов искусственного интеллекта перед их реализацией.
Проблемы интеграции данных
Иногда проблема заключается не в недостатке данных, а в том, что их слишком много и они – во многих местах. Так было в одном глобальном банке, по словам руководителя отдела искусственного интеллекта и аналитики данных розничного подразделения банка, который не уполномочен говорить об этом «под запись».
По его словам, если бы он мог вернуться назад во времени, банк бы раньше начал собирать данные из разных каналов: «Мы этого не делали, и это было большой ошибкой. Наши данные были разрозненны, и как следствие у нас не было полного представления о наших клиентах».
Это ограничило возможности банка генерировать эффективные маркетинговые предложения и привело к снижению доходов; теперь банк переходит к многоканальному представлению данных клиентов, включая онлайн, мобильные и личные взаимодействия.
«Мы все еще не добились этого, – признал он. – Изолированные данные – одна из самых больших проблем, которые у нас были и есть».
Проблема не столько техническая, сколько деловая; первый шаг – соблюдение требований и регламентация: «Есть определенные типы данных, которые мы не можем смешивать».
Другой вопрос связан с приоритетами компании. «Есть так много других проектов, которые работают. И кто заплатит за объединение данных? Это само по себе не является добавочной стоимостью для банка», – указал он, добавив, что с подобными проблемами может столкнуться каждый банк.
Однако приступать к интеграции данных необходимо тогда, когда стартует первый проект в области искусственного интеллекта. «Не думаю, что мы когда-нибудь будем готовы полностью, ведь есть так много источников данных, – резюмировал он. – Я не думаю, что есть компания, которая к этому полностью готова».
В банке рассчитывают, что основные источники данных будут подключены в ближайшие полтора-два года. Сейчас в данном направлении выполнено лишь 10-15% работы.
«Дрейф» данных
Еще одна проблема для проектов искусственного интеллекта заключается в том, что компании полагаются на исторические данные вместо активных транзакционных данных для своих учебных наборов. Во многих случаях системы, обученные на статических исторических снимках, не очень хорошо работают при переходе на данные реального времени, отметил Андреас Браун, который возглавляет работу с данными и искусственным интеллектом в европейском отделении компании Accenture.
«Вы выгружаете некие данные, тренируете модель и получаете довольно хороший результат в лаборатории. Но как только вы запускаете это в работу, начинаются проблемы», — сказал он.
Существует значительная разница между историческими выборками данных и данными, поступающими через живую систему, например, для обнаружения фрода в реальном времени или выявления случаев отмывания денег, потому что модели оказываются не обучены улавливать небольшие изменения в поведении.
«Если вы копируете данные в какой-то момент времени, скажем, ночью, или в субботу или воскресенье, то "замораживаете" ситуацию, – отметил он. – Это делает аналитику в лаборатории очень легкой. Но когда модели машинного обучения встраивают в живую систему, они работают намного хуже».
Решение, по мнению Брауна, заключается в том, что аналитики данных не должны сидеть в бункере, отрываясь от реального бизнеса. Когда модели строятся с использованием «живых» данных, интеграция моделей в производственные среды происходит намного быстрее: «И успехи гораздо, гораздо лучше. Это полностью меняет игру».
Забытые неструктурированные данные
Согласно недавнему опросу Deloitte Consulting, 62% компаний по-прежнему обходятся электронными таблицами и только 18% при анализе используют неструктурированные данные — изображения продуктов, аудиофайлы разговоров с клиентами или комментарии в соцсетях.
Кроме того, многие исторические данные, которые собирали компании, оторваны от контекста, который должен быть полезен для решений искусственного интеллекта, или хранятся в сводной форме, полагает Бен Стиллер, руководитель стратегической и аналитической практики в области розничных и потребительских продуктов компания Deloitte Consulting. Ограниченность в данных, безусловно, может с самого начала приговорить проект к неудаче.
Компании, которые используют неструктурированные данные, например, Mr. Cooper, согласно опросу, на 24% чаще добиваются своих бизнес-целей.
«То как вы работаете с данными, действительно требует фундаментального пересмотра», – считает Стиллер.
Mr. Cooper, например, владеет огромными объемами неструктурированных данных – около полутора миллиардов документов клиентов. В результате агенты по обслуживанию клиентов тратят слишком много времени на поиск нужных документов, и иногда, не находя их, бывают вынуждены перезванивать клиентам.
Поэтому компании пришлось отсканировать все 1,5 млрд документов и с использованием технологии машинного обучения внимательно проанализировать набор из 150 млн документов, которые попали в число двухсот самых используемых типов.
«Этот проект на базе машинного обучения, который действительно приносит пользу, нашел реальное применение», – говорит Шридхар Шарма из Mr. Cooper.
Мало того, что обзвон клиентов стал быстрее, анализ документов помогает создать лучший словарь для будущего использования, когда компания вернется к своему ранее проблемному проекту обслуживания клиентов с использованием искусственного интеллекта.
Культурный вызов
Не только проблемы с данными, но и организационные вопросы вставляют палки в колеса проектов искусственного интеллекта.
Например, Шарма признался, что если бы он вернулся назад во времени, то начал бы работать с языком, который клиенты используют при объяснении своих проблем, и связал бы экспертов по предметной области с разработчиками приложений искусственного интеллекта: «Людей из бизнеса надо объединить с технологическими группами, чтобы контекст всегда был во главе угла. Вы должны заставить их сидеть вместе весь рабочий день».
И если не учиться на такого рода ошибках, шансы на то, чтобы извлечь выгоду из искусственного интеллекта, могут сократиться: неудачные проекты не только отпугивают тех, кто распределяет финансовые средства, но и негативно влияют на удовлетворенность сотрудников и клиентов.
Из-за ранних провалов проектов инвесторы теряют значительные средства, не получая никакой отдачи, а предприятие рискует начать отставать от конкурентов.
Все начинается сверху. Как показывает опрос Deloitte, участие высшего руководства для проектов искусственного интеллекта жизненно важно. «Если проект спонсирует генеральный директор, шансы достичь целей повышаются на 77%», – говорит Стиллер.
Не позволяйте неудаче ослабить вашу приверженность технологиям искусственного интеллекта — долгосрочный подход окупится, уверен он: «Чем больше проектов вы с течением времени вы делаете, тем выше становится их ROI».