Mechanica AI о качестве данных: разделяйте бесценное сырье и токсичные отходы

Алгоритмы машинного обучения вполне способны работать на данных, содержащих выбросы, пропуски и ошибки. Но все же есть предел качества данных, после достижения которого даже самый высококвалифицированный специалист не сможет построить адекватную модель.

Выступая на конференции «Качество данных 2020», которую провело издательство «Открытые системы», генеральный директор компании Mechanica AI Александр Хайтин мастерски добавил «Ложку дегтя в озеро данных». Так он назвал свой доклад, в котором поделился опытом выполнения проекта для предприятия черной металлургии — весьма полезным для тех, кто работает с машиногенерируемыми данными.

Озеро или отстойник?

Прямой связи между ростом объемов данных и принятием лучших управленческих решений нет. Сами по себе данные — это источник затрат на их сбор, хранение, обработку. И очистку! «В реальной жизни data lake больше похоже не на альпийское озеро меж сосен, а на отстойник жидких отходов: подойти страшно, но теоретически полезная вещь», — пошутил Хайтин.

Чтобы превратить данные в бизнес-актив, к ним применяют технологии искусственного интеллекта и другие методы. По сути в Mechanica AI занимаются переработкой вторсырья, превращая его в три полезные вещи: в виртуальные сенсоры, применяемые там, где слишком долго или дорого измерять что-либо физическими сенсорами; в предсказания, позволяющие улучшить управление объектами за счет предотвращения проблем, и, наконец, в прямую оптимизацию и экономию.

Но чтобы получить результат, приходится отделять ценное вторичное сырье, которое можно переработать, от токсичных отходов.

Кунсткамера проблем

Подготовка данных занимает до 80% времени работы с ними, при этом накоплению исторических данных, необходимых для построения модели, часто не уделяется должного внимания.

«Мы по определению с самого начала работаем с мусором и собрали целую коллекцию проблем с данными», — сообщил Хайтин. Пропуски, в том числе из-за поломок сенсоров и сбоев архивирования, а также явные ошибки — самые дешевые из них, так как их легко обнаружить и от них легко избавиться. Главное условие для этого — большой объем данных и не очень большая доля пропусков и ошибок, чтобы не уничтожить весь датасет.

К категории дорогих и очень дорогих проблем он отнес так называемую эзотерическую схему данных — несколько тысяч полей с именами в виде сокращений, аббревиатур и индексов. Также дорого обходится бизнесу неаккуратное агрегирование с усредненными по времени показателями, сделанное в расчете на то, что эта информация уже никому не понадобится. «Данные за много лет, превращенные в бесполезные агрегаты, — это необратимые потери: фарш обратно в мясо уже не превратишь», — отметил Хайтин.

Между тем исторические данные — самые дорогие. Их нельзя купить, можно только накопить. При этом нестыковки исходных данных с результатами, а также нецелостность информации значительно обесценивают накопленный массив. Например, отсутствие сведений о нештатных ситуациях порождает артефакты в данных, приводя впоследствии к попыткам обучить алгоритмы на негодных датасетах.

Если при накоплении данных были допущены критические ошибки, оптимизация производства с помощью обработки больших массивов накопленных данных может оказаться недостижимой. Всего одна ошибка в информационном потоке, поступающем с производственной линии, способна привести к задержке проекта на годы и обесценить все усилия по сбору данных.

Традиционно накопление данных ведется в компаниях по функциональным подразделениям, и в результате «озера данных» на практике часто оказываются фрагментированными. «В этой ситуации достаточно того, чтобы одно подразделение не передало свои данные в озеро, — и тогда ценность всех накопленных в нем данных резко упадет. Не на полпроцента, соответственно объему непоступивших данных, а на все 90%», — подчеркнул Хайтин.

Но проблема-рекордсмен в практике Mechanica AI — сбитые отметки времени в разных информационных системах внутри организации. Причем в некоторых случаях — с плавающей разницей между часами. Для оператора, управляющего физическим процессом в реальном времени, эта разница не имеет значения, так как он собственными глазами одновременно видит показания приборов. А вот сопоставить исторические данные разных систем и использовать их — в этом случае уже нельзя. Чтобы спасти ситуацию, приходится строить интеллектуальные программные решения, что обходится гораздо дороже, чем время системного администратора на настройку часов.

Для предотвращения подобных проблем рекомендуется крайне аккуратно относиться к процессу накопления исторических данных. «Не надо выкидывать сырье, хуже всего бороться потом с алгоритмами агрегации и очистки», — предостерег Хайтин. Он также советует протестировать собранные данные на целостность, построив учебную модель. А также не забывать притчу: «Если лошадь сдохла, слезь с нее, а не пытайся ее оживить». Иногда не стоит «городить огород» интеллектуальных решений, а надо просто смириться с потерей данных.