Сухая теория vs вульгарный практицизм
Возможно, кому-то эта статья покажется чересчур теоретичной. Замечу, что в учебных заведениях сначала изучают теорию, и лишь затем переходят к практике. Теория без практики мертва, а практика без теории глупа. Вспоминается фраза Альберта Эйнштейна: «Нет ничего более практичного, чем хорошая теория». Незнание теории приводит к тому, что каждая решаемая задача оказывается новой, хотя на деле задачи могут быть объединены общей методологией и иметь общие принципы решения.
Понимание важнее знания: можно знать, но не понимать. Тонущая металлическая гайка противоречит тому, что корабль из металла держится на плаву – оба этих факта мы можем знать, но не понимать, почему так, а значит не сможем судить о том, утонет ли металлическое изделие иной формы. Мы можем легко узнать в энциклопедии какой-то факт, но если не понимаем общего, имеем шансы допустить ошибку. Да, возможно заниматься самолечением по энциклопедии, но можно умереть от опечатки.
Что такое Decision Intelligence
Decision Intelligence (DI) — дисциплина, позволяющая превратить информацию в лучшее практическое действие. Эффективное управление организацией особенно важно в условиях агрессивной внешней среды, санкций, когда первоочередная задача – выживание, а вовсе не развитие. Да и развитие в условиях конкуренции проблематично: привычным масштабированием, когда емкость рынка падает, эффекта можно и не достичь. Открытие дополнительных офисов, найм клиентских менеджеров могут оказаться не такой эффективной опцией, как интенсивное развитие. Подходы «катать квадратное, носить круглое», уходят в прошлое – нет излишка, которым можно было бы рисковать. Decision Intelligence – это дисциплина про создание программных систем (помощников), предназначенных достигать взвешенного выбора решения (data science) среди возможных альтернатив (оптимизация); возможно, рекомендовать дальнейшие действия, распространять результаты заинтересованным лицам (BI). Цель Decision Intelligence – помощь человеку в принятии решений. Она достигается посредством осуществления процедур анализа, обработки данных и математического моделирования, а также предоставлением вспомогательной информации, агрегации, отчетов в интерактивном режиме, быстро и наглядно.
Этапы создания систем Decision Intelligence
Можно выделить три основных этапа создания систем DI. Первый этап – формализованное описание алгоритма принятия решений Y = F(X). Второй этап – формирование альтернатив решений Yi=F(Xi), из которых осуществляется выбор. Третий этап – описание критериев выбора среди альтернатив Y → max/min.
В основе DI лежат математические методы, разрабатываемые в рамках ряда дисциплин: теории оптимизации, data science, статистики, эконометрики, а также управления данными (data governance), баз данных и Business Intelligence. Но и технологий недостаточно! На каждом этапе должна присутствовать человеческая экспертиза.
В качестве примера рассмотрим коллекторский бизнес. Приведем основные этапы.
- Сбор данных из систем источников, формирование витрины данных – в этом помогает дисциплина Data Governance.
- Поиск математической зависимости Y = F(X,a), где Y – объем взыскания, X – характеристики клиента, его активность, история транзакций, a – история воздействия на должника (смс, звонок, выезд). В этом помогает машинное обучение, статистика, эконометрика.
- Решение задачи оптимизации: какое воздействие оказать, чтобы максимизировать выгоду: объем взыскания за вычетом затрат на взыскание. В этом нам помогает математическая оптимизация
- Постановка модели в продуктивную систему.
- Доведение рекомендаций до коллекторов с помощью Business Intelligence.
«Ингредиенты» успешного внедрения
Как обычно, ключевых факторов успеха несколько. Во-первых, это данные: методология управления данными и технология их хранения. Во-вторых, математический аппарат: математическая методология и вычислительные мощности. В-третьих, организационная структура: наличие компетенций и ролей. Наконец, управление изменениями: готовность к сопротивлению инновациям, создание новых регламентов.
Остановимся подробнее на первых двух факторах. Данные лежат в основе математических моделей. Должны быть технологии сбора и хранения данных, а также методология управления данными: правила наименования, глоссарий, поток данных, нормативно справочная документация. Математический аппарат позволяет найти информацию в данных, этому способствует теория вероятностей, статистика, эконометрика, машинное обучение, оптимизация. Математика помогает решить слишком сложные, многомерные, многокритериальные задачи.
Человек или технология?
Decision Intelligence не предназначена заменить человека, но предназначена оказать ему помощь в принятии решения, повысить эффективность. Опыт, интуицию и персональные знания невозможно заменить, хотя вычислительные алгоритмы эффективнее человека в части возможности и скорости обработки многомерных и больших данных. Концепция DI заключается в разумной комбинации технологий, методологий, предметной и математической экспертизы. Далеко не любое явление можно оцифровать, и в данных не всегда присутствуют математические закономерности.
Данные не имеют самостоятельной ценности. Скорее, они являются центром затрат. Организации, стартующие с построения «кладовки данных», имеют риск зафиксировать затраты, не найдя выгоды такого проекта в дальнейшем. Поэтому организация не может быть data-driven. Ценность данных заключается в информации, скрытой в данных, а также в способности человека эту информацию найти и использовать. Ценность данных заключается в «правильных» данных и «правильных» руках людей, обращающихся с ними.
Подход model-driven уже ближе к практике. Модель несет знания, так как обнаруживает закономерности. В любых ли данных есть зависимости? Конечно же, нет. Практики приведут массу примеров из своего опыта, когда они не находили зависимостей в данных. Вспомним процессы белого шума или броуновского движения – в них нет зависимостей, а лучший прогноз – среднее арифметическое или последнее значение процесса.
Все ли данные «правильные»? Не все. Не для каждого набора данных можно построить модель, не каждый дата-сайентист настолько опытен, чтобы найти зависимости, даже если они есть. И не все эксперты «правильные». Легко установить математические пакеты R или Python, скопировать скрипт из справочной документации и применить к своим данным, получив прогноз. «Правильные» эксперты умеют не только скопировать скрипт, но и знают теорию случайных процессов, лежащую в основе, статистику, теорию вероятностей, разделы высшей математики.
Современные методы поиска закономерностей часто склонны к поиску ложных зависимостей: они механически перебирают параметры (grid search), пытаясь улучшить математическую метрику. Такие модели часто хорошо объясняют, но плохо прогнозируют. Статистическая значимость таких моделей обманчива. Но математика без человека часто не может найти осмысленную зависимость. Коллаборация эксперта и математика необходима.
Таким образом, мы возвращаемся к подходу human-driven. Хотя математические рекомендации на больших объемах многомерных данных чаще лучше экспертных, задачи все же формулирует человек. Человек собирает данные, строит модели. Не всегда математические модели могут быть найдены, и именно человек выносит самостоятельное суждение. Не все данные содержат нужную и валидную информацию, и человек дополняет своим суждением математическую рекомендацию.
Монетизация данных – командный вид спорта
Следует разделить предметную и математическую экспертизы. Эксперт в предметной области чаще не имеет математической компетенции, зато владеет знаниями, не содержащимися и не оцифрованными в данных. Математик – наоборот, умеет выявлять знания, не очевидные эксперту. Но математический анализ часто ущербен без знаний эксперта, без априорных знаний эксперта он не может распутать «клубок» данных.
Приведем примеры подобных математических выводов. Количество загорающих людей и количество насекомых на пляже оказываются коррелированными. Видимо, чем больше насекомых на пляже, тем больше людей? Или чем больше людей на пляже, тем больше насекомых? Осмысленный вывод: у них общая причина – солнце и температура!
Другой пример: изучив частоту покупок в продуктовом магазине, окажется, что наиболее часто покупаемый товар – полиэтиленовый упаковочный мешок. Да и маржа у пакета хороша! Математическая рекомендация может заключаться в том, что в продуктовом магазине следует продавать только упаковочные полиэтиленовые мешки, а остальные товары не нужны. Вывод: математик без предметной экспертизы может и не отличить ложную закономерность от осмысленной. Но если причинно-следственные связи все же есть, математик покажет их силу.
Итак, возникают две важные роли: эксперт в предметной области и математик-аналитик. Объединять ли роли? Это не всегда возможно и не всегда целесообразно. Универсализм выгоден лишь самому универсалу. Ему легче выживать в организации, «перепрыгивая» с роли на роль. Универсал везде поработал, всем занимался, но мало где обрел глубокую экспертизу. Хотя стоит отметить, что стратегия лучше разрабатывается именно универсалом за счет широты знаний, хоть и поверхностных.
Специалист – от слова «специализация», и это подразумевает глубину знаний. Чтобы организация развивалась, ей нужны именно специалисты. Например, западной бизнес-культуре скорее свойственна специализация. И сравнения производительности труда на Западе и России часто публикуются.
Математика – не волшебная палочка. Осмысленность придать ей может только человек. Свалить цифры на математика и ждать от него чудес – ложная установка.
Decision Intelligence – это объединение экспертных знаний, математических методологий и компьютерных технологий. Основная ее цель – принятие решения, а это требует хорошего понимания и лежащей в основе бизнес-проблемы, и данных. Поэтому Data Science и Decision Intelligence идут рука об руку: data scientist извлекает информацию из данных, а decision scientist с его исключительным пониманием бизнес-целей применяет эти наработки для решения бизнес-проблемы.
Data scientist фокусируется на сборе и анализе наборов данных, формирует управляемый данными и формулами мир бизнеса, оказывает машинную помощь лицу, принимающему решения. Это технолог, применяющий математику, статистику, машинное обучение.
Decision scientist занимается интерпретацией данных и формул, зависимостей, дополняет их экспертными суждениями и недостающими знаниями. Он рассматривает анализ данных как средство для принятия лучших бизнес-решений, делает выводы и формулы «прикладными», определяя решение, оптимальное с экономической, смысловой, бизнесовой точки зрения. Он применяет математические модели к бизнес-задачам, ищет идеи, осмысливает математические модели. Он стремится найти понимание на основе доступных данных и результатов анализа, и ставит бизнес-проблему на первое место.
Информация о процессе и сущности кроется не только в данных. Не вся информация может быть оцифрована. Эксперт дополняет своей экспертизой и опытом недостающие знания, не содержащиеся в данных. Поэтому нельзя отдавать на откуп полностью всю задачу построения рекомендательной системы для бизнеса одному лишь математику.
Автор – Юрий Сирота, эксперт в области данных и искусственного интеллекта