Вестник цифровой трансформации

6 способов привести проект машинного обучения к провалу
6 способов привести проект машинного обучения к провалу




09:32 19.10.2018  |  Боб Вайолино | 4002 просмотров



Процесс обучения машины чреват ошибками. Необходимо следить за тем, чтобы не усугублять ситуацию из-за ошибок людей, работающих в ИТ-службе и бизнес-отделах.

Процесс обучения практически всегда происходит методом проб и ошибок: совершив промах, вы стараетесь понять, как избежать его в дальнейшем. То же относится и к машинному обучению.

Внедряя машинное обучение на предприятии, будьте осторожны: рекламные описания технологии могли породить у вас нереалистичные ожидания ее высочайшей эффективности и точности. На самом деле ошибки в процессе машинного обучения неизбежны, и они могут быть перенесены в бизнес-процессы. Ошибки могут распространиться в широких масштабах, и человек далеко не всегда успевает этому быстро воспрепятствовать.

Если торопиться с внедрением, не уделить времени необходимой подготовке, могут возникнуть проблемы, которые сведут преимущества машинного обучения на нет. Своевременно выявляя и устраняя ошибки машинного обучения, вы способствуете успеху проекта.

Перечислим ряд проблем, способных увеличить число ошибок, совершаемых при машинном обучении, и продлить их влияние. Сами машины с распознаванием и исправлением таких оплошностей справятся вряд ли.

Отсутствие понимания бизнес-задачи

Иногда аналитики, использующие модели машинного обучения, не имеют точного представления о том, какую задачу бизнеса они с его помощью пытаются решить. Это одна из причин возможного появления ошибок.

Прежде чем приступить к освоению инструмента машинного обучения, нужно ответить на вопросы, какую именно задачу вам надо решить и какие для этого требуется построить модели.

С точки зрения статистических возможностей доступные на сегодня средства машинного обучения отличаются чрезвычайной мощностью. При неосторожном использовании такие инструменты могут привести к принятию неверных решений, имеющих серьезные последствия для компании. Если не приложить достаточных усилий, может получиться модель, не соответствующая характеристикам используемого набора данных или задаче обучения. Итогом может стать стремительное падение результативности.

Кроме того, не все бизнес-пользователи знают о том, что качество модели с момента ввода в рабочую эксплуатацию начинает падать. Необходимо постоянно контролировать влияние таких ухудшений на принимаемые решения — независимо от того, идет ли речь о модели, используемой для искусственного интеллекта автомобиля-робота, или любой другой автоматизированной системы.

Низкое качество данных для обучения

Мусор на входе — мусор на выходе. Если качество данных неудовлетворительное, машинное обучение будет проходить с ошибками. Низкое качество данных — одна из основных проблем, с которыми борются специалисты по управлению данными. Из-за низкого качества данных под угрозой могут оказаться проекты аналитики больших данных, несмотря на все усилия исследователей и других специалистов.

Нередко надежность алгоритмов машинного обучения переоценивается, а влияние некачественных данных недооценивается. Низкокачественные данные ведут к получению неверных результатов и принятию необоснованных бизнес-решений. Это, в свою очередь, вредит доходам и затрудняет финансирование новых проектов.

Низкое качество данных можно выявить по результатам работы модели машинного обучения: такие результаты с учетом накопленного вами опыта выглядят бессмысленными.

Для предотвращения проблемы можно применять методы разведочного анализа данных (exploratory data analysis, EDA). В процессе такого анализа обнаруживаются наиболее явные проблемы качества, например аномальные и отсутствующие значения, а также значения, выпадающие из области определения. Используя выборочный статистический контроль, можно определить, достаточно ли у вас данных для адекватного отражения распределения какого-либо демографического показателя, а также составить правила и политики для устранения проблем с качеством.

Неверное применение машинного обучения

Одна из самых распространенных проблем связана со стремлением использовать машинное обучение только потому, что это «модно». Но для успеха соответствующих инициатив нужно, чтобы решаемые задачи не выходили за рамки верных областей применения нового инструмента. Не исключено, что традиционные методы обеспечат не только более быстрое, но и менее дорогостоящее решение.

К тому же, используя машинное обучение для решения неподходящих задач, вы будете впустую тратить рабочее время сотрудников и инфраструктурные ресурсы для получения результатов, которые можно было бы получить более простым путем.

Чтобы избежать ситуации, когда машинное обучение используется не по назначению, уточните бизнес-цель, которую нужно достичь, уровень сложности задачи, объем данных и количество атрибутов. Относительно простые задачи, связанные с классификацией, кластеризацией или поиском ассоциативных правил, требуют небольших объемов данных с малым числом атрибутов и могут быть решены с помощью визуализации или статистического анализа.

Когда объемы данных становятся огромными, возможно, больше подойдет машинное обучение. Однако нередко уже после внедрения выясняется, что бизнес-цель не была сформулирована достаточно четко и решается не та задача, которую требовалось решить.

Модели машинного обучения могут быть предвзятыми

Причиной неверных выводов могут быть не только неточности и пробелы в данных, но и предвзятость (системные ошибки). Предвзятость свойственна людям, а значит, она может быть присуща и моделям, которые работают на основе тех же принципов, что и мозг человека.

У каждого алгоритма машинного обучения свои характеристики чувствительности к несбалансированным классам и распределениям. Если не учитывать это, работоспособность системы распознавания лиц может начать зависеть, например, от цвета кожи или от пола. Подобные случаи с коммерчески доступными сервисами уже были.

Точность заключения, сделанного как алгоритмом, так и человеком, зависит от широты и качества обработанной информации. В связи с возможностью финансового, юридического и репутационного риска, обусловленного алгоритмической предвзятостью, в любой компании, применяющей машинное обучение, необходимо следить за соблюдением принципов этики в масштабах всей организации.

На сегодня существуют подробные описания признаков алгоритмической предвзятости для таких задач, как оценка кредитоспособности, составление образовательных программ, наем персонала и вынесение приговоров по уголовным делам. Недочеты, допущенные при сборе и контроле качества и использовании данных, способны внести системные ошибки даже в самые лучшие реализации приложений машинного обучения.

В докладе консалтинговой компании McKinsey & Company от 2017 года алгоритмическая предвзятость названа одним из самых больших рисков машинного обучения как компрометирующая само предназначение этой технологии.

Как отмечают авторы доклада, целенаправленные усилия по борьбе с проблемой окупаются сторицей, позволяя эффективно реализовать истинный потенциал машинного обучения.

Нехватка ресурсов для полноценного внедрения

Начиная проект, связанный с машинным обучением, в организациях нередко недооценивают необходимый для этого объем кадровых и инфраструктурных ресурсов. Потребности в последних могут быть внушительными, особенно если речь идет об обработке изображений, аудио и видео.

Если у вас нет достаточных мощностей, эффективная разработка решений на основе машинного обучения будет трудной, а то и невозможной.

Но даже если вы реализовали такое решение, в нем не будет смысла, если из-за отсутствия необходимой инфраструктуры его нельзя будет развернуть и использовать.

Масштабируемая инфраструктура для систем машинного обучения может обойтись недешево как в развертывании, так и в сопровождении. Но существует ряд облачных сервисов, предоставляющих масштабируемые платформы машинного обучения, ресурсы которых можно выделять по мере необходимости. Облако позволяет проводить масштабные эксперименты в области машинного обучения без закупки оборудования и работ по развертыванию и настройке.

В некоторых организациях предпочитают использовать локальную инфраструктуру. В этом случае облачные сервисы можно использовать в качестве стартплощадки и инструмента обучения, который поможет понять, какие именно инфраструктурные ресурсы необходимы организации, прежде чем сделать крупное вложение.

Что касается персонала: если у вас в штате нет ученых по данным (data scientist) и инженеров по машинному обучению, то проект может застрять. Необходимы профессионалы, разбирающиеся в принципах и методах машинного обучения, а также способные оценить, можно ли с его помощью решить ту или иную задачу бизнеса.

Специалисты соответствующего профиля смогут обнаружить проблемы с качеством данным, грамотно проведут развертывание и обеспечат использование решений по назначению, помогут сформулировать рекомендации для последующих внедрений и политики сопровождения.

Некачественное планирование и отсутствие контроля

Проект в области машинного обучения может быть начат с энтузиазмом, но со временем застопориться — это признак неудачного планирования и отсутствия контроля.

Если не соблюдать заранее установленные правила, осуществление инициативы растянется на неопределенно долгое время, что может привести к колоссальным затратам ресурсов без пользы.

Нельзя забывать о том, что машинное обучение — это итеративный процесс и модели могут со временем меняться для адаптации к новым требованиям. Как следствие, участники проекта могут утратить заинтересованность в доведении его до конца. Зачинщики проекта могут переключиться на другие инициативы, и затея с машинным обучением в конечном счете остановится.

Как подчеркивают специалисты, ход проектов в области машинного обучения нуждается в постоянном контроле. Если прогресс замедляется, возможно, пришло время сделать паузу и пересмотреть принципы осуществления инициативы.

— Bob Violino. 6 ways to make machine learning fail. InfoWorld. OCT 10, 2018

Теги: Автоматизация предприятий Машинное обучение