Вестник цифровой трансформации

Elementary: наиболее востребована разметка текстовых данных
Elementary: наиболее востребована разметка текстовых данных




10:59 13.02.2023  |  3539 просмотров



Команда платформы для разметки данных Elementary (компания VS Robotics) проанализировала задачи по подготовке данных от заказчиков и выявила самые востребованные виды разметки по итогам прошлого года. Большинство заданий, размещенных на платформе, связано с разметкой текста.

40% от общего объема всех заданий на платформе занимает разметка текста: оценка и классификация текста по набору характеристик, выделение именованных сущностей (NER) и ключевых слов, расстановка знаков препинания, ударений. В 2022 году спрос на данную разметку увеличился на 15% по сравнению с предыдущим. Кроме того, вдвое вырос запрос на разметку сложных текстовых диалогов (20% заданий) для обучения моделей ML, способных отвечать на сложносочиненные предложения человека на широкую тематику.

Разметка изображений занимает второе место по количеству запросов (22%). Такую разметку чаще всего заказывают производители умных устройств, разработчики мобильных приложений, а также программного обеспечения для умных видеокамер.

В числе прочих задач – разметка аудио и видео (13%) и так называемые «полевые задания» по сбору необходимых данных (5%), требующие дополнительных физических действий (например, сфотографировать припаркованный автомобиль на тротуаре или выяснить, располагается ли по данному адресу физически конкретная компания с определенным названием).

Как отмечают в Elementary, развитие искусственного интеллекта невозможно без разметки данных, необходимых для машинного обучения. В связи с растущей популярностью использования голосовых помощников, пришедшим на замену IVR-меню, видно значительное увеличение количества запросов на разметку текста. Эта тенденция наблюдается во всех организациях финансовой сферы, в учреждениях здравоохранения. С каждым годом рынок разметки данных охватывает все больше сфер, и это ставит перед компаниями, специализирующимися на разметке, более сложные и амбициозные задачи.