За последние два-три года сфера искусственного интеллекта прошла огромный путь и сегодня мы видим массовое внедрение решений на базе ИИ в бизнесе, в частной жизни. Благодаря искусственному интеллекту у нас появились умные устройства, голосовые ассистенты, беспилотные автомобили. ИИ применяется, например, в финансовом сегменте, телекоме, медицине, ритейле. Но за каждым таким решением стоит кропотливая и в чем-то рутинная работа, ведь для обучения высококачественных моделей машинного обучения необходимо предоставить их алгоритму точно размеченные данные. Для того, чтобы размечать большой объем данных и делать это быстро, существуют специализированные платформы. В компании «АктивБизнесКонсалт», разрабатывающей ИТ-решения на базе речевых технологий для бизнеса под брендом VS Robotics, создали свою такую платформу – Elementary. Об истории и результатах этого проекта рассказал Дмитрий Теплицкий, генеральный директор АБК и номинант на премию Data Award.
— Как и зачем создавалась платформа Elementary?
Мы являемся одним из основных поставщиков решений, основанных на речевых технологиях. Наиболее известный пример – роботизированный агент, который применяется в различных сферах и направлениях: телемаркетинге, медицинских организациях для записи на прием, проведения опросов общественного мнения, взыскании проблемной задолженности и многих других. В связи с этим возникла необходимость разметки речевых корпусов и других данных, чтобы обучить робота общаться с человеком на равных.
Оценив рыночные решения, мы пришли к выводу, что схема работы внешних поставщиков размеченных данных нас не устраивает и необходимо собственное решение, позволяющее организовать этот процесс. Такое решение и было разработано – это площадка для разметки данных Elementary.
— Расскажите об истории проекта.
Мы разработали платформу Elementary в 2019 году. Этот сервис предполагал возможность разметчикам, привлеченным для работы на площадке, получать дополнительный доход за несложную работу. Уже в первый год платформа Elementary получила высокий отклик. Был получен высокий объем размеченных данных, которые в дальнейшем стали использоваться не только в ИТ-решениях, создаваемых в VS Robotics, но и в голосовых помощниках, и в других продуктах экосистемы «Сбера».
— Что собой представляет платформа, в чем ее суть?
Платформа Elementary позволяет решать большинство задач, связанных с разметкой данных для машинного обучения: текстов, картинок, аудио и видео. Суть проекта в том, чтобы получить большие данные, которые накапливаются в результате работы бизнеса, и обработать их нужным образом для использования в построении технологий. Наша платформа позволяет нам контролировать качество на каждом этапе. Мы автоматизировали весь процесс работы специалиста по разметке на площадке – от регистрации до оформления выплат. Кстати, мы – единственная подобная площадка с официальным оформлением трудовых отношений и автоматизированными выплатами.
— Какие задачи были поставлены перед проектом?
Проект был задуман как для решения прикладных задач подготовки данных машинного обучения, так и для оказания помощи в трудоустройстве для тех людей, кто оказался в сложном финансовом положении и ищет дополнительный источник дохода.
— Что в ходе проекта было самым сложным?
Самой сложной частью была автоматизация создания заданий и правильный учет распределения больших объемов данных (до нескольких миллионов сущностей за задание) между большим количеством разметчиков на площадке, работающих во всех часовых поясах России.
— На каких технологиях базируется Elementary?
Проект построен на технологическом стеке языка PHP (фреймворк Symfony), фреймворка Vue.js и с частичным использованием языка Python.
— Каких результатов удалось достичь?
Самое главное – это разметка огромного массива данных, которые стали основой для многочисленных умных устройств и ИИ-продуктов в «Сбере». Нам удалось привлечь действительно большое количество разметчиков. Нами разработаны механизмы разметки любых типов задач. В пиковые нагрузки на площадке работали до 20 тыс. активных пользователей.
— Была ли изначально задумана социальная ориентация проекта? Или такое понимание пришло уже в процессе? Какие именно категории граждан составляют основную массу разметчиков?
На специализированных площадках, таких как Elementary, ежедневно размечается сотни тысяч данных, и для людей, занимающихся этой работой, это хорошая возможность для дополнительного заработка. А возможность работать из дома и в свободном графике особенно важна для женщин в декрете и малоподвижных граждан. Создавая Elementary, мы изначально задумывали площадку как отчасти социальный проект и сейчас видим, что наши ожидания оправдались.
За последние два года количество зарегистрированных пользователей выросло почти в 19 раз. Сейчас на площадке зарегистрировано почти 20 тыс. разметчиков – более 1,5 тыс. активных ежедневных пользователей. 10% пользователей – сотрудницы «Сбера», находящихся в декретном отпуске, они занимаются разметкой за дополнительный доход. 5% приходится на малоподвижных граждан и матерей детей с инвалидностью. Для оставшихся 85% обеспечивается занятность в удаленном режиме, это люди, не имеющие постоянного дохода и испытывающие финансовые трудности. Кроме того, мы предоставляем возможность присоединиться к платформе Elementary и людям, не имеющих возможность оплачивать кредит ввиду сложных жизненных обстоятельств.
Таким образом, площадка Elementary выполняет важную социальную роль – для людей это возможность для заработка.
— Какие требования предъявляются к ним?
Никаких, кроме оформления самозанятости и внимательного выполнения заданий. Система автоматизирована и позволяет формировать акты и прочие документы без привлечения исполнителей. Единственное, что нужно сделать самостоятельно, – два раза в месяц запросить вывод заработка, нажав соответствующую кнопку в личном кабинете.
— Какую роль играет проект в получении размеченных данных для построения моделей? Какова его доля в общем объеме?
Ключевую роль, так как позволяет произвести необходимую обработку практически любых данных (аудио, видео, изображения и текст), тем самым подготовив их для использования в построении необходимых моделей, их обучении. На проекте в том числе задействованы команды разработки, чьи данные целиком обрабатываются только внутри нашей площадки.
— В 2021 году на платформе Elementary было размечено более 153 млн данных. О каких единицах измерения идет речь?
Речь идет о любых видах данных, будь то семпл-аудио или изображение. Эти данные накапливаются бизнесом (например, одна аудиодорожка из звонка робота абоненту будет являться одним элементом этих данных) и передаются на площадку, где разбиваются по конкретным заданиям с описанием того, что нужно сделать.