9 мифов о машинном обучении

Когда очередная технология становится притчей во языцех – а именно так происходит в последнее время с машинным обучением, – о ней обычно возникает немало ошибочных представлений. Мы постараемся развеять мифы и разъяснить, что машинное обучение действительно может, а что — нет.

Машинное обучение демонстрирует столь высокую эффективность, что возникает соблазн уверовать, будто оно способно решать любые проблемы. Как и другие инструменты, машинное обучение полезно для определенных задач, особенно таких, решением которых многим руководителям давно хочется заняться, но останавливает то, что наем нужного персонала обойдется непозволительно дорого, или таких, цель решения которых ясна, а способ – нет.

И все же машинное обучение в той или иной форме будет применяться практически во всех организациях: 42% руководителей, опрошенных компанией Accenture, указали, что к 2021 году искусственный интеллект станет основой всех внедряемых ими новшеств. Но результаты будут более качественными, если не поддаваться шумихе, не впадать в распространенные заблуждения и точно знать, какие возможности машинное обучение может предложить, а какие – нет.

Миф №1. Машинное обучение – это искусственный интеллект

Термины «машинное обучение» и «искусственный интеллект» используют как синонимы, но первое – это один из методов реализации искусственного интеллекта, на сегодня получивший наиболее широкое применение на практике благодаря активным исследованиям, тогда как второе – это понятие, которое обобщает целый ряд областей, в том числе компьютерное зрение, робототехнику, обработку искусственного языка, а также методы, не имеющие отношения к машинному обучению, например применяемые для решения задачи удовлетворения ограничений. По сути искусственный интеллект – это любые методы, благодаря которым машины начинают казаться «умными», но никакой из них в отдельности не является полноценным «искусственным интеллектом», способным соперничать с человечеством или даже обратиться против него.

Суть машинного обучения состоит в запоминании закономерностей, присутствующих в уже доступном наборе данных, и прогнозировании тех же закономерностей для новых аналогичных наборов данных; результат может выглядеть как плод «интеллектуальной» работы, но в целом принцип состоит в применении статистических методов в огромных масштабах и на очень высокой скорости.

Миф №2. Все данные полезны

Данные для машинного обучения необходимы, но не все они полезны. Чтобы обучить систему, требуется репрезентативная выборка с нужными закономерностями, позволяющая получить именно те результаты, на которые рассчитана ваша система машинного обучения. При этом в данных не должно быть закономерностей, не имеющих отношения к решаемой задаче (например, лишними будут серии фотографий, на которых все мужчины стоят, а все женщины сидят, или где все автомобили в гараже, а все велосипеды – на улице), поскольку модель машинного обучения, создаваемая вами, запомнит эти специфичные закономерности и будет искать их в данных, с которыми вы ее используете. Все данные, используемые для моделей обучения, должны быть аккуратно размеченными, причем разметка должна соответствовать «вопросам», которые вы собираетесь задавать системе машинного обучения, и это потребует немалых трудозатрат.

Полагать, что данные, которые у вас уже есть, чисты, точны, репрезентативны и легко поддаются разметке, – заблуждение.

Миф №3. Вам всегда нужны большие объемы данных

Достижения последнего времени в сфере распознавания образов, автоматизированного понимания текстов, машинного перевода и в других областях стали возможными благодаря появлению более совершенных инструментальных средств, графических процессоров, способных обрабатывать много данных в параллельном режиме, и обширных размеченных наборов данных, например ImageNet и Stanford Question Answering Dataset. Но, благодаря методу под названием трансферное обучение (transfer learning), вам не всегда нужно иметь огромный набор данных, чтобы достичь хороших результатов в конкретной области: вы можете «научить обучаться» систему с использованием большого среза данных, после чего применить приобретенную ею способность к вашему гораздо меньшему набору данных. Именно так работают специализированные API распознавания образов Salesforce и Microsoft Azure: для получения хороших результатов достаточно лишь 30-50 изображений объектов, которые требуется классифицировать.

Метод трансферного обучения позволяет адаптировать заранее обученную систему к вашей конкретной задаче с использованием относительно небольшого объема данных.

Миф №4. Систему машинного обучения может построить любой

Существует множество инструментов и фреймворков машинного обучения с открытым кодом, а также многочисленные учебные курсы, демонстрирующие, как ими пользоваться. Однако машинное обучение по-прежнему остается методом для специалистов – вам нужно знать, как готовить и секционировать данные для обучения и тестирования, как выбрать оптимальный алгоритм и эвристические методы, иметь представление о том, как превратить модель в надежную систему для рабочего применения. Требуется также обеспечить мониторинг работоспособности, следить за тем, чтобы результаты оставались релевантными со временем, – необходимо контролировать качество работы модели и соответствие решаемой задаче, особенно, например, после изменения целевого рынка.

Для эффективного применения машинного обучения требуется опыт. Если вы только начинаете, используйте доступные интерфейсы программирования для заранее обученных моделей и наряду с этим приобретайте необходимые знания в области исследования данных и машинного обучения. Либо нанимайте соответствующих специалистов.

Миф №5. Все закономерности, присутствующие в данных, полезны

Страдающие бронхиальной астмой или ишемической болезнью сердца, а также люди в возрасте 100 лет имеют гораздо более высокую выживаемость при пневмонии – такова статистика. И несложная система машинного обучения, призванная автоматизировать прием пациентов в больницу, может отправить таких людей домой – именно так поступила система, обученная на статистических данных. Однако причина выживаемости таких пациентов при воспалении легких именно в том, что их всегда госпитализируют, учитывая, насколько опасно для них заболевание.

Система «видит» реальную закономерность в данных, однако для принятия решения о госпитализации она не годится (хотя и могла бы помочь страховой компании прогнозировать стоимость лечения). Что особенно опасно, вы не будете знать о присутствии таких вредных закономерностей в ваших данных, если вы не в курсе, какие именно закономерности могут быть лишними.

В других случаях модель может запомнить результативную закономерность, однако она не будет полезной как не имеющая четкого и очевидного объяснения. Например, так было со скандально известной системой распознавания лиц, которая точно определяла сексуальную ориентацию по селфи, – компьютер, по всей видимости, реагировал на социальные сигналы наподобие позы, а не на какие-то врожденные признаки.

Модели, действующие по принципу черного ящика, могут быть действенными, однако остается неясным, какую именно закономерность они выучили. Более прозрачные, понятные алгоритмы вроде обобщенных аддитивных моделей позволяют понять, что именно запомнила система, и это дает возможность принять более обоснованное решение о том, стоит ли ее вводить в рабочую эксплуатацию.

Миф №6. Методы автономного обучения готовы к рабочему применению

Наиболее широкое применение сегодня получил метод обучения с учителем – чаще всего системы обучают на наборах данных, уже размеченных и подготовленных людьми. На очистку наборов данных требуются время и трудозатраты, поэтому существует высокий интерес к методам обучения без учителя, особенно с подкреплением, когда система учится методом проб и ошибок, взаимодействуя со средой и получая сигналы подкрепления («награду») за верное поведение. Система DeepMind AlphaGo, задействуя обучение с подкреплением и с учителем, сумела обыграть сильнейших мастеров по игре го, а Libratus, система, созданная в Университете Карнеги – Меллона, применяя обучение с подкреплением и другие методы, победила лучших в мире игроков в техасский холдем – разновидность покера, которая отличается сложной стратегией ставок. В рамках исследовательских проектов сегодня предпринимаются попытки применять обучение с подкреплением в широком круге областей, от робототехники до тестирования ПО безопасности.

Однако вне исследовательского сообщества обучение с подкреплением используется ограниченно. В Google применяют DeepMind для экономии электроэнергии в центрах обработки данных – обучаясь, система помогает повышать эффективность охлаждения; в Microsoft узкоспециализированный вариант обучения с подкреплением помогает персонализировать заголовки новостей для посетителей портала MSN.com. Проблема в том, что в реальном мире далеко не всегда существуют легко обнаруживаемые сигналы подкрепления и мгновенный отклик. Например, сложности возникают при распределении сигналов подкрепления, когда испытуемая система выполняет несколько действий, прежде чем произойдет значимое событие.

Миф №7. Системы машинного обучения непредвзяты

Обучаясь на введенных данных, модель будет воспроизводить все систематические ошибки, встречающиеся в учебной выборке. Например, при поиске снимков генеральных директоров в результатах, скорее всего, будут преобладать изображения белых мужчин, поскольку таковых среди глав компаний больше. Еще, как выяснилось, системы машинного обучения не просто передают предвзятость, но и усиливают ее.

Набор данных COCO, который широко используется для обучения систем распознавания образов, содержит снимки как мужчин, так и женщин, однако первые на фото чаще сидят за компьютером, держат теннисную ракетку или сноуборд, а вторые – чаще находятся в обстановке кухни. Если обучить систему с помощью COCO, у нее возникнет более сильная ассоциация между мужчинами и компьютерной техникой, чем показывает реальная статистика снимков.

Системы машинного обучения также могут «делиться» предвзятостью друг с другом. Если обучить модель с помощью популярных фреймворков, которые представляют понятия в виде векторов, показывающих отношения между словами, то она усвоит стереотипы и будет, к примеру, приравнивать отношения «мужчина-женщина», «программист-домохозяйка», «врач-медсестра» и «начальник-секретарь». Если использовать такую систему совместно с той, которая переводит с языка с гендерно-нейтральными местоимениями, например, финского или турецкого, на язык с местоимениями «он» и «она», например английский, то фраза «это врач» может превратиться после перевода в «он врач», а «это секретарь» – в «она секретарь».

Получение рекомендаций, скажем по покупкам, – это иногда удобно, но когда дело касается личных убеждений и других деликатных тем, могут возникнуть проблемы: если вы присоединитесь в Facebook к группе противников вакцинации, то система может посоветовать вам группы по конспирологическим теориям или сообщество приверженцев убеждения о плоской Земле.

Проблему предвзятости систем машинного обучения важно иметь в виду. Если вы не можете устранить предвзятость обучающего набора данных, то для сглаживания эффекта воспользуйтесь, например, методом нормализации гендерных ассоциаций между парами слов. Можно также добавить к рекомендациям нечто выпадающее из выученных системой закономерностей, чтобы избежать «пузыря фильтров» – когда пользователю постоянно предлагают только то, с чем он уже знаком.

Миф №8. Машинное обучение используется только для благих целей

Пользуясь методами машинного обучения, антивирусы могут обнаруживать совершенно новые вид атак, с которыми они еще не сталкивались. Но и злоумышленники применяют машинное обучение для проверки возможностей антивирусных средств и организации масштабных целенаправленных атак фишинга, анализируя большие объемы общедоступных данных или уровень успеха предыдущих попыток.

Миф №9. Машинное обучение заменит людей

Опасения по поводу того, что искусственный интеллект отберет у людей работу, сегодня стали обычным делом. Искусственный интеллект действительно изменит рынок труда и принципы выполнения многих обязанностей, поскольку системы машинного обучения повышают эффективность, облегчают соблюдение требований и помогают снижать затраты. В долгосрочной перспективе благодаря машинному обучению появятся новые должности, а некоторые из нынешних исчезнут. Многие задачи, выполняемые сегодня с помощью машинного обучения, раньше попросту были нерешаемыми по причине высокого уровня сложности или огромного масштаба; вряд ли, к примеру, можно было нанять достаточно сотрудников, чтобы в поисках изображения вашего товара изучить каждый снимок, размещенный в социальных сетях.

Благодаря машинному обучению уже сегодня появляются новые бизнес-возможности – например, улучшить клиентское обслуживание с помощью прогнозного обслуживания или ускорить принятие обоснованных управленческих решений. Как и предыдущие поколения средств автоматизации, машинное обучение высвободит время сотрудников, и они смогут, не отвлекаясь на рутинную работу, более полно применять свои знания и творческие способности.

– Mary Branscombe. 9 machine learning myths. CIO. MAR 21, 2018