Большие Данные с позиции научного скептицизма

Информационный ажиотаж вокруг технологий Больших Данных поутих. Самое время «отделить мух от котлет», а маркетинговое пустословие – от действительных преимуществ для бизнеса. Являются ли Большие Данные панацеей, а если да – то от чего? Сколько в них моды, а сколько – науки? И почему они не работают в реальном секторе? Действительно ли будущее за «персонализацией» сервисов?

Верное – неново, а новое – неверно

Научное содержание термина «Большие Данные» до сих пор не определено, и это типично для явления из области моды, а ИТ-сфера подвержена моде ничуть не меньше, нежели прочие области человеческой деятельности. В последние годы это понятие превратилось в донельзя растянутый маркетинговый ярлык, наклеивание которого на произвольный ИТ-продукт существенно увеличивает потребительский интерес. Примерно, как «нанотехнологии» в отечественных реалиях недавнего прошлого.

Как сказал Иммануил Кант, «в каждой науке столько истины, сколько в ней математики». Математика в технологиях Big Data, определенно, есть: это математическая статистика как часть теории вероятностей плюс дискретная математика, становление и развитие которой относится еще к XIX веку. Завершение же теоретических разработок предшествует изобретению современного компьютера.

Получается, как в анекдоте: «верное – неново, а новое – неверно». Новое в Big Data относится по большей части к маркетингу, а верное – к старой доброй математике столетней давности.

Важнейшей составляющей маркетинга Больших Данных стал тезис о том, что будущее потребительских сервисов – за персонализацией. Это представляется само собой разумеющимся. Между тем это утверждение неочевидно и даже убедительно ничем не аргументировано. Если отбросить многочисленные статьи в популярной прессе, утверждающие, сколь важна «персонализация», то... мы остаемся без фактов. Иными словами, нет ни одного примера ни в одной отрасли ни в одной стране мира, когда компания получила прочное конкурентное преимущество путем изысканных манипуляций с клиентскими данными. Это миф и иррациональное ожидание очередной бизнес-панацеи.

Получается у банков, не получается у остальных

Области полезного применения Больших Данных можно разделить на две неравные группы: решение четко сформулированных узкопрактических задач и попытки применить аналогичные методы к данным корпоративных учетных систем с целью неопределенно общего улучшения («найди то, не знаю что»). Применение Больших Данных в технических задачах локального характера – от инженерных до медицинских – не составляет сложностей, и углубляться далее в эту сферу нет смысла. Другая ситуация с бизнес-задачами широкого характера. Если банки и финтех применяют технологии Big Data более-менее успешно (например, скоринговая модель), то с реальным сектором все печально.

Поразительный факт: реальный сектор и в России, и в мире до сих пор не смог извлечь ничего полезного, применяя Big Data к огромным массивам накопленных данных.

Если вчитаться в немногочисленные правдоподобные истории успеха Больших Данных в реальном секторе, то они сводятся либо опять-таки к локальной технической задаче, либо к обработке «альтернативных данных». В обоих случаях речь идет о данных, собираемых, хранимых и обрабатываемых вне корпоративной учетной системы.

Жизнь – это не только финансы

Может ли быть, что проблема кроется в информационных системах? Похоже, корень проблемы именно в неудовлетворительном состоянии данных информационных систем компаний реального сектора. По неизвестной пока причине либо эти данные не могут быть обработаны технологиями Big Data, либо выдаваемые результаты обработки не несут практической ценности.

Но почему же данные банковских систем не страдают от этого? Чем банки принципиально отличаются от компаний реального сектора? Ответ кроется во внутренней сложности процессов: если деятельность банка заключается в жонглировании всего тремя сущностями – деньгами, сроками и вероятностями, то бытие реального сектора гораздо разнообразнее. По большому счету, деятельность менеджмента законопослушного коммерческого банка заменяется несложным алгоритмом, балансирующим параметры фондирования и размещения, включая автоматическую подстройку скоринговых кредитных моделей и автоформирование условий депозитного привлечения. Потребности такого «примитивного» бизнеса (да простят нас обидчивые банкиры) вполне удовлетворяются «примитивными» банковскими системами, а вырожденная модель данных позволяет «лобовую» обработку средствами Big Data.

Посмотрим теперь на представителя реального сектора. Например, типичный ретейлер работает не с тремя параметрами, а с десятками и сотнями тысяч позиций товаров. Зависимости их продаж запутанны и стремительно меняются: есть на складе смартфон А – смартфон Б не продается; наличие чехла к смартфону Б увеличивает вероятность его продаж и тем самым сокращает продажи чехла для смартфона А. Ну а теперь представим, что таких смартфонов десятки, а чехлов сотни. Вспомним также, что мода и спрос на смартфоны и аксессуары меняются по несколько раз в месяц вместе с ценами.

В ассортименте крупного ретейлера, как правило, сотни товарных групп. Они могут быть как совершенно не связаны друг с другом (смартфоны и газонокосилки), так и наоборот: планшет, к примеру, не является прямым конкурентом смартфону, но часть потенциального спроса взаимозаменяема. И перечисленное — лишь малая доля практической проблематики типового ретейлера.

Если банк можно представить как объект, существующий в привычном плоском пространстве трех измерений, то вселенная, в которой обитает реальный сектор, сложна: она бесконечно многомерна, изменчива и негостеприимна. Согласитесь, нелегко представить себе мир, в котором четыре миллиона только координатных осей.

Корень зла – в ERP?

Напрашивается вывод: проблемы применения Big Data в реальном секторе – следствие несоответствия информационных систем требованиям современного рынка. Выглядит правдоподобно. Но в чем же заключается проблема современных корпоративных систем? Как правило, они строятся на базе ERP-решений, чей функционал по необходимости наращивается интеграцией внешних модулей (CRM, WMS и т. д.) Такая схема удобна: нужен дополнительный функционал – покупаем соответствующий модуль и интегрируем его с общей ERP.

Однако модульная архитектура корпоративной системы имеет множество недостатков. Главный из них в контексте Big Data – это принципиальная несогласованность и противоречивость данных. Модульность архитектуры неизбежно приводит к тому, что каждый модуль системы располагает собственным хранилищем данных, независимым как от ERP, так и от других модулей. Теоретически данные регулярно «синхронизируются». Но, даже при условии идеального качества синхронизаций (недостижимого в реальности), в промежутках между синхронизациями данные системы недостоверны: например, в модуле продаж долг контрагента составляет 100 долл., а в финансовом модуле – 4 млн тенге. И невозможно мгновенно выяснить, какое из значений истинно, да и является ли истинным хоть какое-то.

Таким образом, недостоверные данные ERP не могут служить источником для средств Больших Данных. В качестве паллиатива обычно предлагается провести подготовительные процедуры, например «фильтрацию» и «нормализацию». Наукообразность названий здесь призвана скрыть научную несостоятельность. Фильтрация и нормализация принадлежат классу герметических искусств типа: «эти данные нравятся, а те – нет», «я художник, я так вижу». На практике обработка первичных данных дополнительно портит и без того мусорные данные, выгружаемые из ERP. Что на выходе? Ответ один: ничего полезного. В реальности так и есть.

Несоответствие нынешних ERP-систем современным условиям рынка (и нестыковка с методами Больших Данных в частности) – неустранимые следствия фундаментальных ограничений модульной архитектуры. Решение проблемы полезной применимости Big Data в реальном секторе станет побочным следствием, которым будет сопровождаться тектонический сдвиг парадигмы автоматизации бизнес-процессов от классических ERP к чему-то принципиально новому.

– Алексей Галущенко, директор Ultimate humanless enterprises, в 2008-2010 годах – сооснователь и евангелист компании «Юлмарт»