Большие данные | Вестник цифровой трансформации | «Директор информационной службы»

BIG DATA&AI 2022: если не ввести оборот больших данных, то «все пропало»?

Большие данные

BIG DATA&AI 2022: если не ввести оборот больших данных, то «все пропало»?

14:19 28.04.2022 | Николай Смирнов |

Дискуссия, состоявшаяся в рамках ежегодного форума издательства «Открытые системы», показала, что от Минцифры ждут активных действий по легализации больших обезличенных данных. Читать...

Как индустрии больших данных выжить в нынешних условиях? Ответу на этот вопрос была посвящена дискуссия «Что делать, чтобы индустрия данных выжила», состоявшаяся в рамках форума BIG DATA&AI 2022, проведенного издательством «Открытые системы». (Также о форуме см. «BIG DATA&AI 2022: лучше вместе», «Компьютерный мир», 27 апреля 2022.) Название дискуссии подразумевало, что от отрасли требуется быстрая реакция на произошедшие экономические и политические перемены. По мнению экспертов, эти изменения способны наконец ускорить действия регулятора, демонстрирующего сверхосторожность, а временами — даже медлительность.

Как подчеркнула Анна Серебряникова, президент Ассоциации больших данных, в 2018 году, когда был проведен первоначальный анализ состояния рынка, наши банки и телеком-операторы являлись одними из лучших в мире по применению инструментов работы с данными и искусственного интеллекта. Однако имевшуюся динамику сохранить не удалось, и объем рынка, ожидавшийся к 2021 году, не был достигнут из-за проблем регулирования.

«То, в чем нуждался рынок в 2018 году, остается актуальным и сейчас. Компании хотят получить возможность рассматривать данные как товар и включать их в оборот. Они желают развиваться и работать не в серой зоне, как это происходит сейчас, а полностью легально», — констатировала Серебряникова. Важно установить прозрачную систему контроля со стороны государства и исключить риски борьбы с неизвестным — ведь, как известно, психологически проще все непонятное запретить, нежели разбираться в деталях. Возможно, именно поэтому позиция регулятора по всем направлениям была крайне осторожной.

Анна Серебряникова

Анна Серебряникова: «Инновации нужно стимулировать, иначе мы не достигнем запланированных цифр. За период с 2018-го по 2022 год рынок уже недополучил 200 млрд руб. Если ничего не изменится, потери только усилятся»

Однако в текущей ситуации российским компаниям крайне важно получить преимущества, зафиксированные в регуляторных требованиях, что позволит ускоренно развивать продукты на основе больших данных. Государство тоже это понимает, однако пока все инициативы реализуются крайне тяжело. Хотелось бы призвать регуляторов и тех, кто готовит для них аналитику, воспользоваться ситуацией и обеспечить российским компаниям возможность создавать уникальные продукты. За основу можно взять опыт Китая, весьма либерально относящегося к обороту данных.

«Инновации нужно стимулировать, иначе мы не достигнем запланированных цифр. За период с 2018-го по 2022 год рынок уже недополучил 200 млрд руб. Если ничего не изменится, потери только увеличатся», — выразила опасение Серебряникова.

Айсалу Бадягина, заместитель директора департамента обеспечения кибербезопасности Минцифры, признала, что инициативы действительно продвигаются очень тяжело. По ее словам, причины являются чисто технологическими: на сегодняшний день отсутствуют гарантированные методы обезличивания данных. Разумеется, для государства первична именно задача обеспечения безопасности персональных данных. Как отметила Бадягина, в Минцифры выработаны три направления, по которым сейчас ведется активная работа. Первое из них — предоставление доступа к данным для разработчиков на площадке Минцифры. Второе — возможность создания аккредитованных площадок, соответствующих требованиям законодательства (так называемых дата-посредников). И третье — более активное использование практики экспериментальных правовых режимов.

По словам Бориса Зингермана, генерального директора Ассоциации разработчиков и пользователей искусственного интеллекта в медицине, здравоохранению закон о персональных данных нанес гораздо больше вреда, чем пользы. Можно сказать, что сейчас медицинские организации зачастую не защищают данные, а защищаются от контролирующих органов, действуя «с запасом» и тем самым перекрывая все пути к интеграции и объединению данных и использованию их в научных целях.

Борис Зингерман

Борис Зингерман: «Запрет на обогащение медицинских данных из других источников полностью убивает всю потенциальную пользу от их использования и становится огромным барьером на пути развития искусственного интеллекта в медицине»

Медицинские данные живут лишь внутри организаций здравоохранения, и как их оттуда достать, интегрировать и использовать, совершенно непонятно. Больше всего Зингермана беспокоит то, что даже из экспериментальных правовых режимов в период их подготовки было удалено все разумное содержание, которое там имелось. Ярким примером может служить запрет на обогащение медицинских данных из других источников, что полностью убивает всю потенциальную пользу от их использования и становится огромным барьером на пути развития искусственного интеллекта в медицине.

Важно донести до регуляторов, что пользы от применения данных больше, чем рисков. Вероятно, это можно доказать только на практике, и ситуация, в которой мы сейчас оказались, способна стать катализатором, сигналом к действию.

«Резко возросший интерес к большим данным внутри экосистемы ВТБ поражает: число запросов выросло в десятки раз. Поэтому для выживания рынок имеет хорошую почву: если есть интерес у бизнеса, можно выращивать хорошие продукты», — считает Максим Коновалихин, руководитель департамента анализа данных и моделирования ВТБ. Нынешний вызов предоставляет хорошие возможности: работа в области импортозамещения выходит на новый уровень. Действительно, если можно приобрести хорошее готовое решение, создавать собственное мало кто захочет. Однако появившиеся проблемы дали новый стимул, и у людей появился азарт: они хотят создавать решения, превосходящие зарубежные аналоги. Сейчас ВТБ ведет совместную работу с МФТИ по производству собственных программно-аппаратных комплексов.

Кроме того, по мнению Коновалихина, принцип «Лучше меньше, да лучше» становится базовым. Старый подход, при котором компании приобретали много «железа» и забивали его до отказа данными сомнительной ценности, очевидно, перестает работать. ВТБ много инвестирует в направление «умных» данных и предварительного анализа информации, позволяющего избавиться от мусора, не ухудшая качества создаваемых моделей.

«Последние годы были беззаботными с точки зрения возможностей для развития инфраструктуры, и мало кто думал об оптимизации», — согласился Борис Рабинович, CDO «Сбера». Осознавая свои масштабы, в «Сбере» занялись оптимизацией еще в 2020 году, сделав это частью стратегии. Одним из важных направлений стал переход с зарубежных систем на собственные решения в области хранения данных. Сейчас большая часть проектов завершена, по остальным сформированы планы перехода.

Говоря о прочих проблемах, Рабинович выделил очевидную тройку: люди, технологии, инфраструктура. При этом главная загвоздка, по его мнению, именно в кадрах: надо думать, как привлечь в отрасль данных молодых специалистов.

«В конце февраля мы провели анализ рынка больших данных, попытались выявить основные проблемы. Среди них — потенциальное сокращение объема кадров, снижение спроса на новые решения и ограничение доступа к вычислительным мощностям», — рассказал Сергей Наквасин, заместитель руководителя Аналитического центра при Правительстве РФ. Однако, как выяснилось, вычислительные ресурсы почти у всех есть с запасом, и это пока не является проблемой. Отток ИТ-кадров из России резко сократился, и статистика показывает, что он был крайне неоднородным. Главным образом он был связан с наличием большого количества зарубежных заказчиков. Среди специалистов, работающих с прорывными проектами, число уехавших не превысило 5%. А вот что касается спроса на ИТ-решения, то он действительно может несколько сократиться. Во многом именно из-за этого правительство объявило о беспрецедентных мерах по поддержке ИТ-отрасли. Главное, чтобы предоставляемые меры поддержки не разучили айтишников работать.

Руслан Ибрагимов

Руслан Ибрагимов: «Прежде чем что-то делать, надо понять, почему мы три года топтались на месте, почему так и не получилось ввести в оборот большие обезличенные данные»

«Прежде чем что-то делать, надо понять, почему мы три года топтались на месте, почему так и не получилось ввести в оборот большие обезличенные данные», — считает Руслан Ибрагимов, вице-президент по взаимодействию с органами государственной власти и связям с общественностью МТС. Суть цифровой экономики заключается именно в обороте больших данных, поэтому их и назвали новой нефтью. Однако, видимо, такую нефть пока еще не добыли.

По мнению Ибрагимова, регулятор слишком много внимания уделял техническим аспектам, что во многом было спровоцировано появлением GDPR. Однако, если проблему не получилось решить с использованием технического подхода (гарантированное обезличивание данных), надо думать о применении юридического подхода. Лишь запуск в оборот больших данных позволит сделать заметный рывок в направлении цифровой экономики.

«Экспериментальные правовые режимы, которые введены уже давно, должны помогать не только обсуждать проблемы, но и действительно что-то делать. Пора действовать, преодолевая психологические барьеры», — резюмировал Дмитрий Соболев, заместитель директора по направлению «Нормативное регулирование цифровой среды» АНО «Цифровая экономика». Сколько ни тестируй методики на синтетических данных, это имеет мало общего с практикой. ЭПР дают возможность протестировать подходы в «боевых условиях» и получить конкретные результаты. Тем более что у регулятора есть все инструменты для контроля и, при необходимости, прекращения эксперимента.

«СберАналитика» помогает развивать внутренний туризм

Большие данные

«СберАналитика» помогает развивать внутренний туризм

11:20 17.03.2022 | Николай Смирнов |

Андрей Оберемок, генеральный директор «СберАналитики», рассказывает о флагманском продукте – панели «Туризм», разработанной для развития туристической отрасли в регионах. Читать...

Развитие туризма – важнейшая задача, решаемая на федеральном уровне. Государственным и региональным властям и организациям требуется помощь в развитии стратегических инициатив и проектов в этой области. Значимой вехой стало создание аналитического решения для внутреннего туризма в России, реализованного «СберАналитикой». Компания представляет собой цифровой сервис, позволяющий получать аналитические и статистические отчеты, построенные на обезличенных и агрегированных данных «Сбера». Ее флагманским продуктом является панель «Туризм», разработанная для развития туристической отрасли в регионах. Это решение стало первым среди крупных продуктов для сегмента регионального госсектора.

О реализации этого проекта рассказал Андрей Оберемок, генеральный директор ООО «ТОТ» («СберАналитика»).

— Как появилась панель «Туризм», что стало причиной ее создания?

Как и для других продуктов сегмента регионального и государственного сектора, импульсом послужил переход властей к принятию решений на основе аналитики больших данных. В 2019 году Правительство РФ утвердило Стратегию развития туризма в Российской Федерации на период до 2035 года. Тогда же руководство одного из горнолыжных курортов нашей страны заказало исследование туристического потока на данных Сбера. На основе данного проекта мы разработали первую версию методологии тиражируемого решения. Позже, в 2020 году был реализован первый контракт по анализу турпотока для целого региона. За счет этого мы значительно расширили методологию новыми метриками и провели ее полноценные испытания на большом объеме данных. Это позволило удовлетворить потребности в туристической аналитике всех потенциальных заказчиков и тиражировать продукт на новые регионы.

— Почему эта проблема важна?

Для нашей команды задачи, связанные с аналитикой туризма, — это не только, и не столько коммерческие продукты, основанные на популярном тренде последних лет. В первую очередь это возможность привлечь внимание к живой истории страны, сохранить культурное наследие и показать красоту ее природы. Географическое и климатическое разнообразие делает любой регион России привлекательным для посещения, а иногда даже потенциальной туристической Меккой, но, к сожалению, чтобы насладиться всем этим богатством, зачастую нужно в буквальном смысле совершить подвиг.

Сейчас на туристическую индустрию приходится всего 4% ВВП России — это очень мало. При этом надо понимать, что отрасль влияет на более чем 50 различных смежных отраслей российской экономики. При развитии внутреннего и въездного туризма рабочие места появятся в большом количестве населенных пунктов, повысится качество жизни в регионах, вырастет доход граждан в местах отдыха.

Именно поддержка туриндустрии — важная задача, в том числе и для властей регионов. Однако, чтобы развивать и поддерживать отрасль, необходимо понимать, в каком направлении двигаться, чтобы добиться конкретной пользы для конечного потребителя.

— Что представляет собой разработанный вами продукт?

Панель «Туризм» — наш флагманский продукт, разработанный для развития отрасли в регионах, улучшения качества сервиса и предоставляемых конечному потребителю услуг. Первостепенная задача продукта — помочь властям и бизнесу сделать так, чтобы каждому жителю отдыхать в России было не просто интересно, но также комфортно и выгодно, а туристическая отрасль приносила ощутимые доходы и служила катализатором социально-экономического роста.

Заказчик получает аналитику в максимально удобном формате — в режиме онлайн на информационной панели ему доступны более 50 показателей туристической отрасли региона в помесячной динамике с ретроспективой данных с 2018 года. Мониторинг всей туристической отрасли становится доступным региональным властям уже в течение недели после подписания договора.

— Какие ключевые проблемы пришлось решать?

На старте нацпроекта лидеры российских субъектов столкнулись с проблемой поиска нужной информации о туристическом потоке в регионах и состоянии отрасли в целом. На 2019 год в основном были доступны лишь данные мобильных операторов и статистика из официальных источников, которая поступала с большим опозданием. Кроме того, описанные источники информации не охватывали все необходимые аспекты и давали лишь количественный показатель туристического потока. Сведения о портрете туриста, его тратах, интересах и потребностях отсутствовали

Мы смогли найти новые достоверные источники информации и решить проблему. Компания разработала уникальную методологию на основе обезличенных больших данных, которая подходит для любого региона страны.

— Какие данные и какие платформы вами используются?

Оценка турпотока производится на основе анализа обезличенного массива данных клиентов Сбера. Мы располагаем информацией о тратах 100 млн физических лиц. Помимо собственных данных, для анализа туристического потенциала привлекаем информацию из внешних источников, закрывая все потребности клиентов.

Для работы с данными используются инструменты Hadoop, Spark, Python, Jupyter, Hive, Hue и др. Для анализа данных, моделирования и визуализации применяются такие библиотеки, как Pandas, Numpy, Scipy, Seaborn, Matplotlib.

— Кто в первую очередь является ключевыми пользователями – госструктуры или бизнес?

Главная цель продукта — полноценная поддержка национального проекта «Туризм и индустрия гостеприимства», в число задач которых входит подготовка условий для развития туристической отрасли в стране, привлечение инвестиции во внутренний туризм со стороны бизнеса, повышение туристического потока, в том числе привлечение иностранных туристов. Наш продукт в этом процессе — важный инструмент. Он дает руководству региона актуальную информацию о состоянии отрасли, что позволяет выявить целевую туристическую аудиторию, и точки роста для развития инфраструктуры, а также дает возможность оценить эффективность принимаемых мер.

— Каковы достигаемые результаты?

К панели «Туризм» на сегодня присоединились 19 регионов, и опыт использования больших данных для развития отрасли уже принес результаты. Главное, что несет в себе наш продукт, — аналитика, которая положительно влияет на динамику внутреннего турпотока. В качестве примера можно привести несколько регионов, где активно используют наш продукт.

Власти Югры благодаря аналитике подтвердили гипотезу о том, что в регион едут жители крупных городов Уральского федерального округа, прежде всего — на рыбалку. В округе определили перспективные туристские территории (агломерации) и приоритетные направления туризма. Территорию УрФО поделили на категории в зависимости от уровня развития туристической сферы.

Руководители администрации Нижегородской области предполагали, что туристов в регионе больше, чем учитывает официальная статистика. Наш продукт показал, что Нижний Новгород и область больше не являются местами для однодневных поездок, что количество гостей растет и они возвращаются в регион чаще. На основе наших данных руководство области разработало муниципальный туристский стандарт, чтобы довести инфраструктуру в слабых районах до приемлемого уровня. Также регион делится знаниями с бизнесом, помогая повышать качество обслуживания.

Еще один регион, который использует панель «Туризм», — Смоленская область. Теперь руководство области располагает информацией, которую раньше не удавалось получить ни из официальных источников, ни из маркетинговых исследований. На основе нашей аналитики регион выстроил грамотную стратегию развития и управления инфраструктурой туризма, определил возможности для расширения целевой аудитории, запустил маркетинговые кампании и в целом повысил свою привлекательность для туристов.

Таким образом, мы помогаем субъектам РФ повышать экономический уровень, улучшать инфраструктуру и повышать качество жизни местных жителей за счет развития туризма. Это комплексные решения, влияющие на итоговые финансовые результаты, а потому оценить в фиксированном денежном выражении их невозможно.

— Какова социальная значимость этого проекта?

«Гостеприимство» — это не абстрактное слово, а серьезная работа, существенно влияющая на впечатление от поездки. Панель «Туризм» дает руководству региона актуальную информацию о состоянии отрасли в целом, что позволяет выявить целевую туристическую аудиторию, точки роста для развития инфраструктуры и отслеживать эффективность принимаемых мер.

С началом пандемии жители страны стали больше путешествовать по России. Все мы, откладывая деньги на долгожданный отпуск, в поездке оцениваем, сколько и за что мы заплатили, что получили по факту, сравниваем предыдущий опыт с текущим. Конечно же, граждане, привыкшие в зарубежных поездках к высокому уровню сервиса, столкнулись с отечественным, который зачастую заставляет желать лучшего. Чувства патриотизма и красот природы оказывается недостаточно, чтобы увеличить турпоток и удовлетворить запросы путешественников.

Решения, основанные на полученной от нас информации, могут быть разными: от запуска дополнительных авиарейсов и строительства гостиниц до организации тематических фестивалей, от разработки новых маршрутов до развития сети Wi-Fi и современных остановочных пунктов. Турист получает то, что он хочет и на что готов тратить деньги: пятизвездочные отели или доступные хостелы, рестораны высокой кухни или небольшие семейные кафе, новые развлекательные площадки или выставки. Знания о потребителе позволяют открывать для них уникальные направления и разрабатывать новые маршруты.

В итоге повышается качество пребывания конечного потребителя в регионе. Отдых становится максимально комфортным, а гости готовы чаще путешествовать, расширяя свой кругозор и получая максимум удовольствия от поездок в регионы России.

Наконец, ценность развития туризма – не только в деньгах, которые отдыхающий тратит. С собой домой человек увозит впечатление о стране, городах, людях, что там живут, с которыми он познакомился в поездке. Не стоит забывать, что туризм — это основа народной дипломатии. Он несет в себе очень серьезный идеологический аспект, разбивает отрицательные стереотипы, создает новые мировоззренческие ориентиры, служит инструментом укрепления солидарности и взаимопонимания. В наше время это крайне важно.

— В каком направлении развивается проект?

Продукт растет в сторону полноценного решения, соответствующего запросам стратегических национальных проектов нашей страны в области туризма. Он обеспечивает анализ профиля туриста – его социально-демографический портрет и интересы; анализ бизнеса в туристической сфере – его финансовые показатели, уровень сервиса; анализ событий и мероприятий, их влияние на туристический поток; анализ локаций, их показатели и привлекательность для туристов.

Мы расширяем перечень источников данных, привлекаем новых партнеров, создавая синергетический эффект. Используем современные технологии ML-прогнозирования и искусственного интеллекта. Автоматизируем решение, благодаря чему оно легко масштабируется и становится доступным для широкого круга участников туристической отрасли.

МТС

МТС помогает развитию регионов

08:32 12.03.2022 | Николай Смирнов |

Армен Аветисян, вице-президент по интернету вещей и промышленной автоматизации МТС, – о создании геоаналитической системы «МТС.Регион», позволяющей органам исполнительной власти управлять регионом на основе объективных обезличенных данных о социально-демографическом составе населения, миграциях и туристических потоках. Читать...

В сентябре 2021 года МТС запустила геоаналитическую систему для поддержки принятия управленческих решений «МТС.Регион». Это первое в России коробочное решение, которое работает по модели подписки и дает возможность органам исполнительной власти управлять регионом на основе объективных обезличенных данных о социально-демографическом составе населения, миграциях и туристических потоках, а бизнесу – оценивать эффективность новых локаций для торговых точек и офисов. О предпосылках создания и роли этого проекта для создания комфортной среды в регионах рассказывает Армен Аветисян, вице-президент по Интернету вещей и промышленной автоматизации МТС.

— Как родилась идея создания решения «МТС.Регион»?

Мы в течение нескольких лет наблюдали стабильно растущий спрос на геоаналитические данные. Это неудивительно: растет мобильность населения, меняются паттерны поведения, увеличивается количество самостоятельных путешественников. Региональным властям для эффективного управления развитием территорий остро необходимо обладать точной и актуальной информацией – например, какова реальная численность населения, сколько туристов или мигрантов сейчас в регионе, на какие объекты инфраструктуры приходится самая большая нагрузка.

Мы заметили, что большая часть регионов приходит к нам с похожими запросами, и решили автоматизировать работу над такими кейсами, создав платформу «МТС.Регион» – веб-интерфейс для оперативного доступа к геоаналитическим отчетам. Важно было совместить возможность настраивать автоматическую выгрузку данных с удобным интерфейсом, который будет интуитивно понятным для пользователя без какого-либо опыта работы с большими данными.

— Что собой представляет система?

Это коробочное решение, предоставляющее доступ к обезличенным данным в трех форматах на выбор – веб-интерфейс, API или аналитические отчеты. В веб-интерфейсе доступно два модуля: «Цифровой житель» и «Цифровой туризм».

Модуль «Цифровой житель» позволяет оценить фактическую численность населения, социально-демографический состав, составить портрет жителя разных районов города и региона, проанализировать ежедневную и сезонную миграцию и оценить спрос на городскую инфраструктуру. Возможно заказать исследования по анализу посещаемости конкретных инфраструктурных объектов, общественных пространств и мероприятий. Система оценивает количество посетителей, их социально-демографический состав, сравнивает популярность объектов и событий по заданным параметрам. Наши данные помогают планировать развитие городского пространства, в том числе дорог, развязок, станций метро и остановок общественного транспорта, поликлиник, школ, детских садов, спортивных объектов и парков, корректировать графики и маршруты общественного транспорта, оценивать достаточность инфраструктуры, повышать популярность общественных мероприятий.

Бизнес может воспользоваться системой «МТС.Регион», чтобы сравнить доступные локации при открытии новых торговых точек и офисов на основе больших данных о трафике. Система анализирует информацию о проходимости, социально-демографическом портрете регулярной аудитории, данные об объеме и категориях трат.

Модуль «Цифровой туризм» дает возможность оценить объем и характер туристического потока: откуда приезжают гости региона, какие локации привлекают больше всего туристов, какова средняя продолжительность поездки, с какой целью в основном приезжают в регион. Платформа может составить портрет туриста с учетом пола, возраста, семейного положения, уровня доходов, сферы интересов, а также оценить достаточность инфраструктуры. Эти данные позволяют наладить транспортное сообщение с регионами, из которых прибывает наибольшее число туристов, запланировать строительство инфраструктуры именно там, где это необходимо, подготовить график мероприятий, соответствующих интересам ключевой аудитории, разработать программы привлечения туристов.

Геоаналитическая система работает на основе обезличенных данных Big Data МТС. Модель подписки позволяет получать не единоразовый отчет, а регулярные исследования и видеть динамику процессов. Данные обновляются с регулярностью от одного до пяти дней с момента наступления события.

— За какое время и какими силами реализована система?

Мы начали разработку в 2020 году. За время работы несколько раз меняли подход, корректировали работу с учетом отзывов клиентов. Пандемия также внесла свои правки: спрос на цифровые сервисы со стороны региональных властей в 2020 году вырос в три раза. Мы сразу стали применять гибкий подход к работе с аналитикой: переиспользовали и трансформировали методики, наполняли систему разными источниками данных, чтобы у клиентов была возможность оперативно выгрузить нужную информацию – например, перед совещанием у губернатора. Мы старались максимально применять опыт МТС в других сферах, но многое приходилось реализовать с нуля.

Над продуктом работает кросс-функциональная команда, в которую входят продуктологи, разработчики и специалисты по обработке данных, причем физически наши сотрудники разбросаны буквально по всей стране – от Владивостока до Санкт-Петербурга. Сейчас мы выдаем новые «фичи» практически каждый двухнедельный спринт – я считаю это большим успехом.

— На кого ориентирована платформа? Кто основной клиент?

Сейчас большинство заказчиков «МТС.Регион» — представители государственной власти: администрации городов, профильные ведомства и отраслевые министерства. В первую очередь решение полезно региональным министерствам по туризму и транспорту, а также различным инстанциям, занимающимся благоустройством территорий и развитием городского пространства.

Мы также видим интерес к платформе со стороны бизнеса: продуктового ретейла, торговых сетей, туристических агентств и сегмента HoReCa. Отдельная категория запросов приходит от девелоперов. На основе нашей геоаналитики компании выбирают наиболее удачные локации для открытия бизнеса и изучают свою аудиторию. Здесь возможности «МТС.Регион» дополняет рекламная платформа МТС Маркетолог. Таким образом мы оказываем полный комплекс услуг – от анализа локации до привлечения новых клиентов в нее.

— Хватает ли собственных данных МТС для создания достоверной аналитики?

Для большинства кейсов – да, более чем. МТС – крупнейший российский оператор и ядро целой экосистемы сервисов, среди которых онлайн-кинотеатр KION, МТС Библиотека, МТС Музыка и многие другие. Наша платформа Big Data хранит и обрабатывает более 20 Пбайт обезличенной информации.

Система агрегирует обезличенные данные о пользовательском поведении, нагрузке на базовые станции, модели потребления в экосистемных сервисах, роуминге – внешнем или внутреннем, картографические данные, параметры устройств Интернета вещей. При необходимости можем использовать информацию, которую предоставляет заказчик – например, отраслевые данные.

В результате мы получаем высокую достоверность аналитики при полной анонимности конкретных людей. Как правило, уже этой информации достаточно, чтобы увидеть тренды и паттерны поведения жителей города или туристов. В случае, если нужно оценить численность населения или объем турпотока с учетом абонентов других операторов, мы можем с высокой точностью высчитать эти параметры на основе данных о нашей доле в регионе.

— Что показывает практика — какая аналитика больше всего интересна регионам и бизнесу?

Самые востребованные услуги сейчас – оценка турпотока и событийный анализ. На них приходится 80% проектов. Поддержка внутреннего туризма – одно из ключевых направлений федеральной и региональной политики. Планировалось, что в нацпроект «Туризм и индустрия гостеприимства» в 2022 году вложат больше 52 млрд руб.

Цель нацпроекта – довести количество путешествий по России до 140 млн в год к 2030 году. В 2021 году туристический поток внутри РФ, по данным Ростуризма, достиг 56 млн человек, однако оборот в российской туристической отрасли все еще значительно меньше показателей 2019 года. Так что в этом направлении регионам предстоит большая работа.

— В каких регионах уже внедрено решение, в чем они больше заинтересованы – в «Цифровом жителе» или «Цифровом туризме»?

Не могу сказать однозначно: эти сервисы, как правило, приобретают одновременно. Данные Big Data МТС уже используют 46 регионов, но, к сожалению, не обо всех проектах мы можем рассказывать. Наш первый масштабный проект реализован для министерства туризма Самарской области. На основе данных «МТС.Регион» был сформирован рейтинг домашних регионов, откуда приезжают туристы, проведен анализ сезонности, выявлены объекты притяжения, спрогнозирован объем турпотока и определены приоритетные направления для развития авиасообщения. В результате министерство транспорта и департамент туризма запустили программу субсидирования авиабилетов из Калининградской области.

Интересный способ применения платформы придумали в Приморском крае. Там нашу систему используют для реализации другого нацпроекта – по развитию спорта. Мы на основе обезличенных данных анализируем, насколько регулярно занимаются спортом люди разных возрастов и оцениваем нагрузку на спорткомплексы в зависимости от сезона и времени дня. У правительства края есть данные по посещаемости муниципальных и краевых объектов, но нет информации о том, насколько активно люди пользуются услугами коммерческих компаний и посещают открытые спортивные сооружения. Такую информацию можно получить только из обезличенных больших данных.

— В чем роль и социальная значимость этого решения?

Платформа помогает улучшить качество городской среды благодаря тому, что планирование городской инфраструктуры осуществляется с учетом анализа больших данных. Это позволяет определить локации, где есть наибольшая потребность в строительстве инфраструктурных объектов, перераспределить транспортные потоки, маршруты и графики движения общественного транспорта с учетом миграций населения, разработать стратегию развития города и региона. Министерства по туризму, в свою очередь, получают объективные данные, которые позволяют развивать инфраструктуру, обосновывать бюджетирование проектов, направленных на развитие туризма, запускать программы субсидирования отрасли, налаживать транспортное сообщение.

— Каковы ожидания – насколько значимым бизнесом это может стать в обозримой перспективе?

Мы ожидаем, что рынок геоаналитики к концу 2023 года вырастет более чем втрое. В 2021 году количество заказов от региональных властей увеличилось почти в два раза по сравнению с 2020 годом.

— В каком направлении развивается «МТС.Регион», каковы перспективы и ближайшие планы?

Есть два направления работы. Первое – повышать точность прогнозов, увеличивать скорость обновления информации в системе, добавлять новые источники. Это бесконечный процесс, который требует постоянной работы.

Второе – увеличивать количество «коробочных» решений на базе системы. Например, иногда аналитику для бизнеса мы делаем как кастомизированное решение. То же касается аналитики по пассажиропотоку или оценке достаточности социальной инфраструктуры. Мы хотим создать под эти услуги такие же стандартизированные модули, какие уже есть для работы с турпотоками и анализа населения и трудовых миграций. Это сделает использование платформы еще более удобным и позволит закрыть самые распространенные запросы властей и бизнеса. К концу 2022 года мы намерены запустить еще несколько модулей.

Webiomed: искусственный интеллект на страже здоровья

Сахарный диабет

Webiomed: искусственный интеллект на страже здоровья

09:17 04.03.2022 | Николай Смирнов |

Александр Гусев, директор по развитию системы Webiomed, — о развитии платформы, использующей искусственный интеллект как для поддержки принятия врачебных решений, так и для решения управленческих аналитических задач. Читать...

Webiomed стала первой российской системой искусственного интеллекта для здравоохранения, которая успешно прошла независимые клинические испытания и была зарегистрирована Росздравнадзором. Она может использоваться и врачами как система поддержки принятия врачебных решений, и руководителями для принятия управленческих решений в области управления здоровьем. Это дает увеличение потенциала профилактической медицины и сокращения предотвратимой заболеваемости. Историей создания платформы и ее нынешними успехами делится Александр Гусев, директор по развитию системы Webiomed.

— Что стало причиной появления платформы Webiomed?

Идея попробовать свои силы на новом для нас рынке искусственного интеллекта пришла к нам в 2017 году. В то время все наши усилия были посвящены работе в компании «Комплексные медицинские информационные системы» (К-МИС), которая к тому времени стала одним из лидеров рынка информатизации медицинских организаций. Несмотря на то, что наша команда развивала собственный стек самых разных программных продуктов для здравоохранения, мы стали понимать, что рынок информатизации России в целом сформирован, идет его консолидация и поэтому возможности дальнейшего развития бизнеса стали выглядеть не очень перспективными. Стало ясно, что с точки зрения технологий и интересов государства целесообразно поддерживать развитие только самых крупных разработчиков и переходить к централизованному продвижению продуктов на этом рынке.

Мы стали искать новую нишу и идею, которая потенциально могла бы открывать возможность для выхода на рынки других стран и пробовать применять новые технологии. Мы около года потратили на анализ различной аналитики, изучение глобальных рыночных тенденций и обсуждения возможных идей. На одном из таких обсуждений нам порекомендовали подумать над рынком искусственного интеллекта, который как раз стал заметно расти в США. Нам эта идея понравилась, и мы стали углубленно исследовать эту тему. Почти сразу мы отказались от идеи выхода в сектор анализа медицинских изображений, потому что уже тогда в мире было много сильных продуктов и конкуренция казалась слишком сложной. Мы нащупали идею прогнозирования возможных негативных проблем со здоровьем у пациентов. Именно в решении прогнозных задач алгоритмы машинного обучения показывали большие перспективы, а вариантов применения их было гораздо больше, чем у анализа изображений. Так и появилась идея создать сервис, который мог бы анализировать электронную медицинскую карту, извлекать из нее с помощью технологий обработки естественного языка (natural language processing, NLP) важную клиническую информацию и затем строить индивидуальные прогнозы возможного появления серьезных проблем со здоровьем в ближайшем будущем. Мы предположили, что такая предиктивная аналитика может быть полезна широкому кругу заказчиков, включая руководителей в области здравоохранения, страховые компании и конечно врачей.

— Каковы возможности решения?

Система умеет анализировать разнообразные данные о состоянии здоровья пациента с помощью интеллектуальных методов обработки больших данных. Она включает систему поддержки принятия врачебных решений, а также аналитическую систему для работы руководителей в области профилактики и управления здоровьем.

В настоящий момент система поддерживает 14 заболеваний в части оценки рисков их развития или ухудшения, 40 подозрений на наличие заболеваний. Основные нозологии: сердечно-сосудистые заболевания, сахарный диабет, хроническая болезнь почек, заболевания органов дыхания, патология при беременности, инфекционные заболевания (в том числе COVID-19), орфанные заболевания.

Webiomed – первая российская система искусственного интеллекта для здравоохранения, которая успешно прошла независимые клинические испытания и зарегистрирована Росздравнадзором как программное медицинское изделие. И мы стали первой ИИ-системой, получившей официальную регистрацию в качестве так называемой «Иной информационной системы», что дает нам правовые основания для взаимодействия с Единой государственной информационной системой здравоохранения (ЕГИСЗ).

— Что собой представляет бизнес компании? Кто основные заказчики?

За время реализации проекта мы несколько раз пересматривали стратегию и фокусировку проекта, поскольку шла проверка выдвигаемых командой гипотез и анализ обратной связи с рынка на предлагаемые нами идеи. Так была найдена текущая схема, согласно которой мы развиваем платформу, на которой одновременно могут работать врачи и руководители медицинских организаций. Применение этих продуктов позволяет платформе накапливать большие объемы обезличенных медицинских данных. Используя технологии NLP и ряд других возможностей, мы извлекаем и формируем большие массивы очищенных структурированных данных, на основе которых можем проводить исследования реальной клинической практики, заказные разработки алгоритмов и моделей машинного обучения и другие научно-исследовательские работы. Заказчиками таких услуг выступают научно-исследовательские организации, контрактно-исследовательские фирмы, а также фармацевтические компании.

— Какими вы видите перспективы рынка, какова ваша стратегия на нем?

Объективно российский рынок искусственного интеллекта для медицины недостаточно динамично развивается, выручка компаний невелика, мы пока не вносим ощутимую долю в ВВП. У многих компаний длительный цикл разработки продуктов. Отсюда и отставание от других стран, и сложности с решением финансовых проблем, и с поиском заказчиков и ростом инвестиций.

В 2020 году мы решили трансформировать проект Webiomed: вместо используемой в то время модели SaaS сосредоточиться на научно-исследовательских работах на базе обезличенных медицинских данных. Для этого разработали стратегию продвижения платформы на основе fremium. Мы предлагаем медицинским организациям и субъектам РФ подключение к платформе Webiomed бесплатно в обмен на право собирать обезличенные данные и выполнять коммерческие заказы от научных и исследовательских организаций на анализ данных, проведение научных исследований и т.д.

Следуя такому подходу, мы сумели накопить большое количество очищенных данных, пригодных для формирования датасетов и работы моделей машинного обучения.

— Каких результатов удалось достичь?

В настоящее время в платформе Webiomed содержатся обезличенные медицинские данные свыше 3 млн пациентов, свыше 130 млн медицинских протоколов, из которых извлечено больше 500 млн различных признаков. Эти данные можно использовать для автоматического выявления и анализа самых разных показателей, характеризующих население России, а также проводить исследования рутинной клинической практики для фармацевтических компаний, научных и образовательных организаций.

Результатами внедрения платформы в региональных медицинских организациях стало сокращение в 10 раз затраченного времени и трудоемкости обработки врачом медицинских данных пациента при диагностике, повышение до семи раз выявляемости пациентов высокого риска.

— Можете ли поделиться финансовыми результатами?

В прошлом году нам удалось увеличить свою выручку в 6,8 раза, что стало мощным драйвером для развития проекта. Минувший 2021 год также закончился существенным ростом – выручка проекта увеличилась в пять раз. Для технологического стартапа существенный рост основных показателей – таких как выручка и интеллектуальная собственность – являются жизненно важными. Они демонстрируют, что команда не просто способна создать интересный продукт, но и то, что этот продукт востребован рынком, а команда реально способна на активное продвижение на новых рынках.

— Что вы сами считаете главным эффектом использования Webiomed?

Самый главный результат, который мы пытаемся дать здравоохранению – это увеличение реального использования и потенциала профилактической медицины, сокращения предотвратимой заболеваемости, а значит – и сокращение неэффективных затрат. Анализируя электронные медицинские карты и развивая алгоритмы прогнозной аналитики, мы постоянно учим систему более точно выявлять пациентов высокого риска и обращать внимание врачей и руководителей на этих пациентов. Это очень важно, поскольку очень часто таким пациентам можно назначить точечное дополнительное обследование и эффективное лечение, которое будет предотвращать тяжелые осложнения: инфаркты, инсульты, госпитализации, а в итоге – и фатальные исходы.

— В чем роль проекта и его социальная значимость?

Платформа помогает врачам лучше понимать возможные негативные события со здоровьем пациента в будущем и обнаруживать заболевания на ранней стадии. Это дает возможность оказывать профилактическую медицинскую помощь, а также эффективно организовать профилактику хронических заболеваний и снижать уровень смертности от них.

Использование системы как «второго мнения» позволяет выявить факторы риска и высокую вероятность развития некоторых опасных заболеваний у 45% пациентов.

В целом, внедрение автоматизированных систем мониторинга пациентов позволит вести персональную профилактику, эпидемиологический мониторинг и принимать своевременные управленческие решения по сокращению заболеваемости и затрат на оказание медицинской помощи.

— Каковы направления развития платформы?

Мы видим, что в целом нашли эффективную схему монетизации, основанную на сборе и обработке больших данных с помощью технологий искусственного интеллекта и прогнозной аналитики. Результаты такого накопления и обработки позволяют нам предлагать все новые услуги и идеи, которые мы продолжим продвигать на рынке и проверять спрос и рентабельность масштабирования бизнеса компании на их основе.

Одним из самых перспективных направлений, которое мы выбрали для отработки в 2022 году, является привлечение пациентов к использованию результатов работы наших ИИ-алгоритмов. Мы хотим выпустить пациентское приложение, которое усилит эффективность инвестиций наших заказчиков в профилактику заболеваний. Не секрет, что именно вовлечение пациентов в собственную заботу о здоровье, повышение их осведомленности об имеющихся проблемах и рисках здоровья, а также улучшение приверженности подобранного врачами лечения – это ключевой вызов перед профилактической медициной сегодняшнего дня. С другой стороны, обогащение накапливаемых нами цифровых профилей пациентов их собственными данными, включая данные о соблюдении врачебных рекомендаций, приеме лекарств, достижении целевых уровней модифицируемых факторов – это крайней перспективное направление в повышении ценности самой платформы. Именно на проработке этой стратегии в данное время сосредоточена команда.

«Сбер»: анализ чеков для идеального понимания клиентов

Большие данные

«Сбер»: анализ чеков для идеального понимания клиентов

09:15 04.03.2022 | Николай Смирнов |

Антон Золотухин, Data Protection Officer розничного бизнеса «Сбера», — о проекте чековой аналитики, позволяющем добиться лучшего понимания потребностей клиента, и достигнутых с его помощью результатах. Читать...

Традиционно выделялось два основных источника данных о клиентах: маршрут перемещения и транзакционные данные. Эти данные действительно полезны в различных сферах бизнеса, однако в них отсутствует подробная информация о предпочтениях клиентов. К каким брендам они лояльны? Какую долю своего бюджета они тратят на определенные товары? Какое у них хобби? Есть ли у них домашние животные? Чем точнее компания может ответить на эти вопросы, тем более персонализированными становятся ее отношения с каждым клиентом. Источником таких знаний о клиентах становятся их чеки, именно эти данные отражают их образ жизни и поведенческие привычки.

В «Сбере» разработали модели, которые с согласия клиента помогают обрабатывать и извлекать из чеков важные для лучшего понимания потребностей клиента данные. Так появился проект аналитики чеков для максимальной персонализации и адаптации клиентского опыта для экосистемы «Сбера». О реализации этого проекта и первых результатах рассказал Антон Золотухин, Data Protection Officer розничного бизнеса «Сбера».

— Анализом транзакционных данных занимаются все. С какого момента был сделан акцент на анализ чеков, дающий принципиально иные знания?

«Сбер» – больше, чем банк. На сегодняшний день в его экосистему входит более 100 компаний, удовлетворяющих основные жизненные потребности каждого клиента: вызов такси, доставка еды, совершение покупок и многие другие. У каждого из 103 млн наших клиентов свой уникальный опыт использования финансовых и нефинансовых продуктов экосистемы, поэтому одна из главных целей – найти индивидуальный подход к каждому клиенту. Чтобы достичь максимальной персонализации, мы стремимся использовать как можно большее количество различных источников и возможности искусственного интеллекта для аналитики данных.

В 2021 году нами было принято решение более детально посмотреть на транзакции клиента. Стало очевидно, что для получения уникальных знаний о клиенте недостаточно просто знать сумму покупки и наименование продавца. Неисчерпаемый источник данных содержит именно детальный чек со списком покупок, который позволяет глубже понять жизненную ситуацию и привычки клиента. При этом чеки в необработанном виде содержат много избыточной или искаженной информации. Но мы нашли решение и разработали модели на основе искусственного интеллекта, которые с согласия клиента помогают обрабатывать и извлекать из чеков важные для нас данные. Так появился проект по закупке чековых данных и их аналитике для максимальной персонализации и адаптации клиентского опыта для экосистемы «Сбера».

— Для обработки чеков требуется согласие клиента. Какой процент из многомиллионной армии клиентов «Сбера» дает его?

Сервисом чековой аналитики пользуется свыше 70 млн клиентов, что составляет более 90% от всех пользователей мобильного приложения «СберБанк Онлайн» – все эти клиенты дали согласие на подключение аналитики чеков. Никто из наших конкурентов на рынке не работает с таким объемом данных и не реализует проект аналитики клиентских чеков такого масштаба.

— Почему клиенты дают согласие на анализ чеков? В чем их выгода?

Для клиента важно иметь возможность детально анализировать структуру расходов для управления семейным бюджетом, а также получать другие инструменты анализа личных финансов. Он самостоятельно подключает сервис и видит подробную аналитику своих трат по товарам и категориям. Вместо категории с общим названием «расходы в супермаркетах» на экране онлайн-банка отдельно отображаются «расходы на продукты питания», «товары для дома», «товары для домашних животных» и так далее. Эти данные позволяют клиенту видеть полную картину своих расходов. Ранее получить такой результат было невозможно, так как при анализе использовались только транзакционные данные.

— Что стало самым сложным в реализации этого проекта?

Для проведения анализа чековых данных потребовалось решить целый ряд нетривиальных задач: научиться обрабатывать огромный объем данных, учитывать разнообразие названий продуктов (в том числе составные), опечатки, транслитерацию, сокращения и аббревиатуры в наименованиях. Из-за всех этих факторов практически невозможно решить задачу анализа чеков с помощью традиционных подходов. Например, невозможно определить по наименованию позиции в чеке «ФРУТ/.САД 1,5л ЯБЛ&ПЕР.», какой именно товар приобрел клиент. Применяя модели искусственного интеллекта, из указанного наименования можно выявить, что приобретен товар в категории «Продукты», продукт «Нектар», бренд «Фруктовый Сад», объем 1,5 л.

Решение на основе искусственного интеллекта способно автоматически распределять купленные клиентом товары более чем по 72 тыс. параметров: категории, бренды, продукты, меры. За счет использования семантических представлений из нейросетей и алгоритмов платформа способна находить схожие или идентичные продукты с похожими описаниями и предоставлять точную аналитику. В работе над проектом были использованы последние достижения в области искусственного интеллекта и обработки естественного языка: маскированные языковые модели с использованием механизма Self-Attention («внимание на себя») и архитектуры Transformer, трансферное обучение и др. Эти технологии позволяют нам создавать эффективные решения для автоматического анализа данных на естественном языке.

— В какие продукты банка и экосистемы «Сбера» в целом могут быть встроены знания о распределении расходов клиента?

Подробная информация о предпочтениях клиентов, которая содержится в электронных чеках, используется для формирования рекомендаций, аналитики, оценки рисков при выдаче кредитов, проведения маркетинговых кампаний и кампаний по стимулированию продаж. Благодаря уникальному решению нам удалось повысить персонализацию и точность таргетинга предложений, предоставляемых банком и другими участниками экосистемы. В перспективе это позволит удерживать позиции в борьбе за внимание и кошелек клиента, а также предоставлять лучший персонализированный сервис.

— Каких результатов удалось достичь?

Всего за год команде удалось разработать и запустить уникальную платформу для анализа клиентских чеков. Обучение модели происходило на 2 млн единиц открытых данных из каталогов интернет-магазинов. В конечном счете, удалось добиться точности распознавания данных электронных чеков на уровне 85%. И сейчас мы умеем распознавать 42 тыс. продуктов, 30 тыс. брендов, 260 категорий. За 2021 год было обработано 7 млрд чеков.

Такие показатели открывают новые возможности для развития бизнеса «Сбера». Результаты платформы по аналитике чековых данных используются при составлении персональных предложений и формировании рекомендаций, что повышает лояльность клиентов. Наблюдается прибавка 5% к росту количества уникальных пользователей за месяц (monthly active users, MAU) и 10% к показателю «кликабельности» (click-through rate, CTR).

Кроме того, мы ожидаем значительного повышения эффективности бизнес-процессов: увеличения выручки в сегменте маркетинга и продаж на 5%, а также увеличения выручки в области управления рисками на 3%. Это подтверждено пилотными проектами на стадии доказательства ценности.

Отдельно следует выделить помощь проекта аналитики чеков в реализации стратегии в области ESG.

— Насколько важна для «Сбера» повестка ESG? Какую роль этот проект может играть в ней, и вообще в «зеленых» инициативах?

ESG-повестка для «Сбера» чрезвычайно важна: в бизнес-стратегиях компаний ESG становится новым стандартом и гарантией успешного ведения бизнеса. Мы всегда уделяли значительное внимание вопросам устойчивого развития, корпоративной и социальной ответственности. Сейчас компания находится в активной фазе ESG-трансформации, основная наша цель — стать лидером системных изменений в области ESG для создания экономики процветания, эффективной для общества и сохранения окружающей среды.

Таким образом, одной из главных наших задач является повышение уровня ESG банка и клиентов. Благодаря аналитике клиентских чеков мы разрабатываем функции, позволяющие использовать обработанные данные для реализации стратегии в области ESG. Например, мы можем выявлять клиентов, которые делают покупки экотоваров и вознаграждать их за заботу о природе и обществе бонусами и скидками от экосистемы «Сбера». Также уже запущен пилот для наших сотрудников по отслеживанию своего углеродного следа в мобильном приложении «СберБанк Онлайн». Это стало возможным благодаря учету расходов на топливо и поездки на такси при анализе электронных чеков. С помощью этой функции мы сможем оценить уровень ESG каждого клиента и развить среди них культуру осознанного потребления.

— Есть ли возможности для развития этого проекта? В какие новые инициативы он может перерасти?

Использование решения на основе искусственного интеллекта для анализа чековых данных позволяет увеличить выручку и улучшить клиентский опыт за счет повышения уровня персонализации предложений и реализации новых возможностей для клиента. Проект вносит весомый вклад в достижение целей «Сбера» и повышает точность предсказания нашего лучшего следующего действия для клиента (Sber Next Best Action). Кроме того, решение позволяет лучше понять наших клиентов и предоставить им лучшее предложение на рынке в соответствие с их потребностями. Направлений использования структурированных данных из чеков – бесконечное множество: банк может и должен меняться вместе со своими клиентами.

ИТ в здравоохранении

Данные для медицины: естественный язык vs структурированные галлюцинации

12:28 06.04.2021 | Ирина Шеян |

В рамках тематической сессии юбилейного форума BIG DATA 2021 обсудили проблемы медицинских данных. Читать...

Пандемия коронавируса дала сильный импульс развитию медицинских информационных технологий, и проблема доступа к большим медицинским данным получила шанс сдвинуться с мертвой точки. Состояние отечественного рынка данных здравоохранения, отраслевые кейсы применения аналитики и технологий искусственного интеллекта, а также ситуацию с доступом к медицинским данным и нормативным регулированием повторного использования обезличенных данных для машинного обучения эксперты обсудили на форуме BIG DATA 2021, проведенном издательством «Открытые системы». Кульминацией тематической сессии стал круглый стол «Качественные медицинские данные для ИИ-решений: где их взять?», организованный при поддержке Ассоциации «Национальная база медицинских знаний».

Сырьевая база

Медицинские данные стали, с одной стороны, отдельным объектом инвестиционного интереса для технологических компаний, а с другой — «топливом» для развития рынка систем искусственного интеллекта. И максимальная вероятность толкового их применения в ближайшем будущем сосредоточена в наиболее привлекательных для инвесторов направлениях: сервисы для пациентов, телемедицина и, конечно, искусственный интеллект.

В числе самых многообещающих областей применения искусственного интеллекта в здравоохранении — предсказательная аналитика, включающая решения по прогнозированию возникновения эпидемий, нехватки лекарств и нежелательных событий в организме конкретного пациента. «Мы научились использовать большие данные для сокращения неэффективных затрат на оказание медицинской помощи», — сообщил директор по развитию проекта Webiomed Александр Гусев, представляя участникам BIG DATA 2021 обзор рынка искусственного интеллекта для здравоохранения. По его мнению, два главных вызова для этого рынка в России — особый правовой статус стартапов в сфере больших данных и искусственного интеллекта, а также развитие национальной платформы, которая позволит собирать медицинские данные, предоставлять доступ к ним доверенным компаниям и осуществлять государственный надзор в этой чувствительной сфере. Планы создания такой отраслевой федеральной платформы искусственного интеллекта, основой которой станет защищенный банк обезличенных медицинских данных, были недавно анонсированы Минздравом. Разработчики рассчитывают, что в процессе реализации этого проекта основные проблемы, связанные с использованием больших данных в медицине, будут решены.

К 2020 году медицинские информационные системы внедрили 82% медицинских организаций России. И хотя 80% информации в электронных медкартах хранится в неструктурированном виде, с ней вполне можно работать с помощью технологий обработки текста на естественном языке (Natural Language Processing, NLP). По мнению Гусева, основные сложности на пути развития российского рынка «умных» решений для медицины создает неурегулированный оборот обезличенных медицинских данных и отсутствие понятной схемы возврата инвестиций в это рискованное направление.

Закон на подходе

Между двумя нежизнеспособными крайностями «данные должны быть доступны всем» и «данные не должны быть доступны никому» лежат компромиссные варианты порядка обращения обезличенных данных, пока еще не оформленные юридически. Медицинские данные выделены в специальную категорию особо чувствительных данных и не могут обрабатываться без согласия субъекта даже в обезличенном виде. Как сообщила Александра Орехович, директор по правовым инициативам ФРИИ, поправки, предусмотренные законопроектом об обезличенных персональных данных, который сейчас готовится ко второму чтению, дают надежду, что вопрос доступа к данным с целью разработки систем искусственного интеллекта вскоре будет урегулирован. Доступ будет предоставляться в определенном порядке определенным категориям организаций, которые соответствуют определенным требованиям. Но никакой конкретики в отношении этого порядка, категорий и требований пока нет — ясность появится только вместе с подзаконными актами. Когда будут выпущены проекты документов с правилами обезличивания данных и правилами доступа к ним, тогда и развернется по-настоящему острая дискуссия на эту тему.

Сегодня, когда одновременно идут процессы усиления защиты данных и полной открытости цифрового следа, настало время поднять вопрос о донации данных, полагает Борис Зингерман, гендиректор ассоциации «Национальная база медицинских знаний». «Сделать донацию данных легче, чем донацию крови, а пользы от нее тоже можно получить немало, — подчеркнул он. — Я с удовольствием поделюсь своими данными для науки, и таких пациентов будет немало».

Три диагноза от искусственного интеллекта

Интересный пример полезного использования данных о первичных приемах пациентов, накопленных в столичной системе здравоохранения, привела первый заместитель начальника Управления заместителя мэра Москвы по вопросам социального развития Юлия Урожаева. Она рассказала о системе поддержки принятия врачебных решений на основе искусственного интеллекта, которая с октября прошлого года работает во всех взрослых поликлиниках города. Для обучения нейросети, которая была разработана и откалибрована при помощи специалистов лаборатории искусственного интеллекта Сбера, использовали уникальную методологию разметки данных, сообщила Урожаева. Около 95% случаев обращения в поликлинику связано с одним из 265 диагнозов. На них и сосредоточились разработчики.

Проанализировав анамнез и введенные врачом жалобы пациента, система подсказывает три наиболее вероятных предварительных диагноза, а затем подбирает стандартные пакеты инструментальных и лабораторных исследований для подтверждения диагноза или его опровержения. К настоящему времени с помощью системы проведено около 4 млн амбулаторных приемов, и в 70% случаев выбор врача совпадает с предложением нейросети. Систему продолжают дорабатывать и обучать, пополняя новыми данными и диагнозами и повышая точность ее работы.

Свое выступление Урожаева завершила приглашением к сотрудничеству. «Очень ждем нестандартно мыслящих людей для разработки следующих продуктов», — обратилась она к участникам форума.

Видеть цель

Поиск качественных медицинских датасетов сродни добыче золота или алмазов, требующей переработки тонн пустой породы. Поиском редких данных в различных источниках и организациях занимаются специальные компании, и эти изыскания не всегда успешны. Качественный датасет получается, когда исследователь четко знает, какие данные и с какой целью собираются. Например, это происходит при написании диссертации. Но создать качественный универсальный датасет для абстрактных целей невозможно, уверен Зингерман.

«При использовании публичных датасетов, которые непонятно как собраны, приходится проводить процедуру кросс-разметки данных нашими врачами», — подтвердил операционный директор компании «Цельс» Никита Николаев. По его словам, качественных медицинских данных на сегодняшний день мало. Однако если качественно отстраивать процедуры разметки данных, можно повысить и точность решений, построенных на их основе. Николаев поделился опытом по оптимизации затрат на разметку медицинских изображений с помощью псевдо- и кросс-разметки, а также результатами эксперимента по привлечению к процедуре разметки маммограм силами сообщества «Яндекс.Толока». Эксперимент показал, что люди, размечающие снимки для обучения ИИ, находили рак не менее точно, чем врачи.

Накопленные к настоящему времени массивы ценнейших медицинских данных очень плохо структурированы, так как при их создании не учитывались цели последующего ретроспективного анализа, отметил Николай Павлов, CDO НПЦ «Радиология Москвы». Но те данные, которые начинают накапливаться сегодня, эти цели уже учитывают.

«Российское здравоохранение находится в двух шагах от того, чтобы перейти к медицинской аналитике на основе первичных данных, — полагает Игорь Башков, коммерческий директор «Нетрика Медицина». — В 2020 году COVID всех к этому подстегнул».

Так, многие регионы организовали автоматическое формирование регистров заболевших коронавирусом и оперативную передачу первичных данных о заболевших на федеральный уровень в структурированном виде. Это лишь одна из множества задач, которые «Нетрика Медицина» помогает решать региональным управленцам, интегрируя данные из 70 медицинских информационных систем различных организаций.

На распутье: NLP или cтруктурированная галлюцинация?

Структурированные или неструктурированные данные — важная развилка на пути дальнейшей цифровизации российского здравоохранения. Как отметил Павел Пугачев, заместитель министра здравоохранения РФ, идти по пути структурированных электронных медицинских документов (СЭМДов), добиваясь перехода всех медицинских организаций на единый формат — правильно, но долго, хотя этот подход прекрасно себя показал в ряде регионов, где интероперабельность и обмен данными с федеральным сегментом Единой государственной информационной системы здравоохранения обеспечивается с помощью СЭМДов. «Мы будем двигаться по этому пути, но нельзя отбрасывать и неструктурированные данные», — подчеркнул он. По мнению Пугачева, сегодня недостаточно проектов, которые работают с неструктурированными текстами и результатами анализов, между тем это направление может стать прорывным. В нем следует создавать заделы и реализовывать сервисы для медработников.

Главное предназначение медицинских данных — обеспечивать оказание медицинской помощи и преемственности лечения. Возможность последующего анализа данных — дополнительный бонус, ради которого далеко не всегда можно заставлять врачей заполнять сложные длинные формы. Иногда это слишком долго и дорого обходится. К тому же опыт показывает, что данные из неструктурированных источников зачастую оказываются даже более качественными.

Гусев поделился историей, когда по настоянию заказчика разработчики сделали форму врачебного осмотра, включавшую почти тысячу полей. Заполнение данных осмотра одного пациента стационара занимало 40 минут. Неудивительно, что врачи сразу переходили в конец формы, меняя лишь несколько полей и оставляя остальные шаблонными. «В итоге на выходе получилась очень качественно подготовленная и прекрасно машино-обрабатываемая… галлюцинация», — констатировал Гусев. Эксперимент подтвердил, что абсолютная формализация в реальной медицинской практике невозможна, и имеет право на жизнь разве что в клинических исследованиях. А в клинической практике более применим подход, сочетающий заполнение текстом крупных блоков структурированных документов, и последующее извлечение информации из них с помощью NLP-технологий.

Чем сложнее экранная форма, тем менее достоверны данные, ее заполняющие, согласен Пугачев. Он, в свою очередь, привел пример неудачной попытки наполнить регистр больных ковидом подробнейшими данными о хронических заболеваниях, в результате которой получили множество пациентов, у которых вообще отсутствовали хронические заболевания. Лишь когда в регистре оставили только группы хронических заболеваний, качество его данных существенно повысилось. Для повышения качества данных также важно использовать данные, поступающие с анализаторов, носимых устройств и предоставляемые самими пациентами. К примеру, при вакцинации заполняемость дневников наблюдения на портале госуслуг оказалась существенно выше ожидаемой, а этот формат дает возможность не только собрать дополнительные сведения, но и разгрузить врачей при сборе анамнеза.

«Нам нужен спрос на датасеты для создания сервисов на основе искусственного интеллекта, чтобы иметь возможность внутренней приоритизации, выстраивания процессов разметки, создания эталонных датасетов и их предоставления вовне, — заявил Пугачев. — Мы хотим поддерживать именно российских разработчиков и готовы выстраивать с ними коммуникации». Удачный опыт НПЦ «Радиология Москвы» по тестированию ИИ-решений, по его мнению, нужно расширять, и не только на анализ медицинских изображений.

DataDiving: найти «жемчужину» в океане данных

Большие данные

DataDiving: найти «жемчужину» в океане данных

15:29 01.03.2021 | Наталья Дубова |

Михаил Мягков, председатель правления ассоциации «Университетский консорциум исследователей больших данных», рассказывает о большом образовательном проекте консорциума. Читать...

Университетский консорциум исследователей больших данных – ассоциация, объединяющая российские университеты, которые ведут фундаментальные и прикладные проекты в области аналитики больших данных. Одно из направлений деятельности консорциума – серия школ и образовательных интенсивов по обучению работе с данными, получившая название DataDiving.

О развитии университетских инициатив в области прикладного анализа больших данных и назначении проекта DataDiving рассказал Михаил Мягков, председатель правления ассоциации «Университетский консорциум исследователей больших данных» и номинант премии CDO Award 2021.

— Как появилась идея школ DataDiving?

Первую экспериментальную лабораторию по прикладному анализу больших данных мы основали на базе Томского государственного университета пять лет назад. Уже тогда было понятно, что количество данных, накапливаемых в мире, растет по экспоненте. А сейчас можно сказать, что вокруг нас – океан данных, который мы бороздим без карт, без подходящих кораблей и, главное, без четкого понимания целей и задач своего путешествия.

Серьезная проблема, и у нас, и на Западе – это колоссальный разрыв между гуманитарными и математическими научными областями в плане работы с данными. Очень мало проектов, в которых алгоритмы разрабатываются в кооперации социологов, политологов, психологов, математиков и предназначаются для решения конкретных задач общества и бизнеса. Это наследие общепринятого подхода к развитию науки, основанного на формировании обособленных дисциплинарных «кланов».

Но когда перед обществом встают серьезные вызовы, как это обстоит сейчас с данными, то возникает острая необходимость не просто в междисциплинарном сотрудничестве, а в таком подходе к организации проектов, когда для решения конкретной задачи собираются вместе все необходимые компетенции из самых разных областей.

Идея реализации такого подхода, который я называю «постдисциплинарным», лежала в основе организации Университетского консорциума исследователей больших данных. Решение подобных задач силами одних университетов было бы невозможно, поэтому ключевой составляющей нашего консорциума являются индустриальные партнеры. Консорциум был основан при активной поддержке компании «Крибрум», впоследствии к нам присоединились Megaputer Intelligence, Forecsys и другие. Мы создавали инфраструктуру для решения конкретных проблем, а не для абстрактных междисциплинарных исследований. Например, как данные помогут приемной комиссии привлечь более качественных абитуриентов? Как снизить отток квалифицированных кадров и удержать их в регионе? Как на базе анализа цифрового следа в социальных сетях увеличить уровень благотворительной активности? Или как на ранних стадиях распознать экстремизм и радикальные течения?

Основной целью консорциума является наполнение университетов командами (подчеркну это слово), способными решать конкретные задачи с помощью окружающего нас океана данных. Потому и родилась идея такого названия для образовательных инициатив – DataDiving. Мы «погружаем» людей в океан данных, чтобы они смогли найти и поднять на поверхность скрытые в нем «жемчужины».

— Наверняка у многих университетов – членов консорциума уже есть свои программы в области работы с данными. Этого недостаточно?

Да, у многих вузов есть такие программы. Но наша задача не в обучении конкретного человека по конкретному курсу. Посредством DataDiving мы создаем инфраструктуру единомышленников для совместной работы над актуальными проблемами.

Приведу пример. В начале пандемии у Министерства образования и науки РФ появился срочный запрос на выявление проблем при переводе образовательной среды на дистанционный формат. Для обработки всех тех данных, которые позволили бы дать релевантный ответ на эти вопросы, потребовалась бы крупная организация, целиком задействованная на таком проекте. Мы же в рамках консорциума распределили эти данные между 10 университетскими командами, которые одновременно включились в работу. Это позволило предоставлять ведомству актуальную картину происходящего практически в режиме реального времени. В университетской среде нет другой организации, способной осуществлять подобные проекты с такой скоростью и гибкостью.

— Как устроена школа DataDiving?

Мы создали своего рода конструктор для формирования школ прикладного анализа данных, из которого, как из кубиков LEGO, можно складывать программы, различающиеся по количеству учебных часов, тематическому фокусу, аудитории и т. д.

Так, одна из школ, прошедшая в декабре, состояла из трех основных частей. Первая – недельный пре-модуль в онлайне, на котором слушатели проходили теоретическую подготовку по основам анализа данных. Задача этой части программы – дать представление о том, как соотносятся между собой реальная жизнь, данные и модели, и показать, какие инструменты используются в анализе больших данных. Здесь важно сотрудничество с нашими партнерами из индустрии, которые безвозмездно предоставляют свои программные решения (например, платформу «Крибрум» для сбора данных из социальных медиа или систему Polyanalyst для текстовой аналитики) и помогают учить студентов.

Но самое интересное происходило в рамках второй части – очной сессии, на которой была дана путевка в жизнь конкретным проектам. В течение нескольких дней шла кропотливая работа с участниками школы, выбирались темы проектов, формировались команды. Здесь требовались не только технические и методические навыки – нужно быть еще немного психологом, а в чем-то и «свахой», потому что конечный успех школы зависит от вовлеченности людей, от их заинтересованности в результате проекта, способности работать в команде.

Что касается тем проектов, то их можем предлагать не только мы, но и сами участники. Иногда возникают совершенно неожиданные для нас темы. Например, недавно разрабатывалась задача использования анализа данных для предотвращения супружеского насилия. Выяснилось, что в обществе есть большая потребность в таких инструментах.

Финальная часть – сопровождение проектов. Мы помогаем найти правильных людей и собрать эффективные команды, чтобы инициированные в рамках школы проекты имели хорошие шансы на успешное развитие.

— Кто учится и кто учит в школах DataDiving?

Так как наше общество уже погружено в океан данных, то любой человек, которому в его работе может понадобиться анализ данных – наш потенциальный студент. Для примера, это могут быть социологи, технические специалисты, политологи, лингвисты, специалисты из некоммерческих благотворительных организаций или государственного управления.

Преподавателями выступают представители университетов – участников консорциума, а также эксперты со стороны индустриальных партнеров. Также в зависимости от задач программы мы можем приглашать наиболее значимых спикеров из бизнеса или научного сообщества. Главное – обеспечить проектную синергию, выстроить мост между академическими знаниями и реальной жизнью.

Обучение анализу больших данных в наших школах прошли уже более 600 человек из 15 регионов России. По итогам прошедших занятий уже реализовано более 10 проектов .

— Каким образом эти проекты учитывают потребности общества и бизнеса в анализе данных?

Инфраструктура, которую мы создаем на базе университетов, является инструментом для взаимодействия и с обществом, и с бизнесом. Наше активное участие в программе подготовки CDO (директоров по данным) – хорошая тому иллюстрация. Когда возникла задача обучить большое количество чиновников и представителей коммерческих структур проектной деятельности по работе с данными, выяснилось, что консорциум это может реализовать быстро и эффективно.

А без совместных проектов с бизнесом консорциум вообще был бы нежизнеспособен. Эффективность того, что мы делаем, должна измеряться тем, насколько мы активно и продуктивно сотрудничаем со средой за пределами университетов.

В качестве примера – мы участвуем в совместном проекте с компанией, которая экспортирует в Россию экзотические фрукты. Компетенции университетских центров прикладного анализа данных задействованы в решении задачи прогнозирования и контроля состояния товара на момент его поступления на полки магазинов на основе больших объемов данных об условиях сбора и транспортировки фруктов.

— У консорциума широкая география. Насколько ваши школы и проекты привязаны к региональной специфике, какой потенциал тиражирования этих инициатив?

Сегодня в консорциум входит около 30 университетов из разных городов и регионов: Томска, Архангельска, Якутска, Тольятти, Москвы (МГУ им. Ломоносова, НИУ ВШЭ), Чечни, Крыма и пр. Наша философия подразумевает активное участие вуза – члена консорциума в реализуемых инициативах и проектах. Томский госуниверситет выступает в роли координатора работ.

Широта охвата проекта зависит от его задач. Есть и региональные, но большинство имеют федеральный масштаб. Например, сейчас мы совместно с Центром перспективных управленческих решений (ЦПУР) развиваем инициированный в Томске проект по составлению динамического рейтинга качества жизни в регионах на основе различных официальных данных и цифрового следа человека.

— Какие перспективы у DataDiving?

У нас не может быть других перспектив, кроме как создавать все новые и новые инструменты для работы с океаном данных, которые позволят отвечать на различные вызовы и повысить качество жизни общества. Наша инициатива развивается очень успешно, создаются новые программы, многому учимся сами по ходу дела, поскольку здесь нет опыта, на который можно было бы опереться. Наш консорциум – уникальная организация не только для России, но и в мире. Мы научились быстро создавать новые образовательные программы под конкретные нужды, учимся все лучше координировать проектную деятельность, чтобы она давала успешные результаты. Мы рассчитываем стать флагманским кораблем флотилии в океане данных, при этом готовы продуктивно сотрудничать со всеми, кому это важно. У нас открытые данные, которыми мы безвозмездно делимся со всеми, кто в этом реально заинтересован.

— Что для вас самое сложное, а что – самое интересное в образовательных инициативах консорциума?

Я почти четверть века работаю в университетской среде в России и на Западе, и глубоко убежден, что развитие человеческого капитала – основная миссия университета. В этом я вижу и свою главную цель. Самое сложное в наших инициативах – найти и замотивировать людей, которые не просто отсидят учебные часы, а сделают запущенные в рамках школы проекты частью своей профессиональной жизни. Инициативных, активных, увлеченных людей пока не хватает. В наших школах мы работаем индивидуально с каждым, чтобы создавать продуктивные проектные команды. Это и самое трудное, и самое интересное.

Центр прикладного анализа больших данных: цифровое счастье и реальные проблемы

Социальные сети

Центр прикладного анализа больших данных: цифровое счастье и реальные проблемы

10:54 26.02.2021 | Николай Смирнов |

Вячеслав Гойко, директор Центра прикладного анализа больших данных Национального исследовательского Томского государственного университета, — о возможностях оценки качества жизни граждан на основе анализа данных социальных сетей. Читать...

Счастье людей зависит не только от их дохода — теперь это подтверждено математикой. Чтобы повышать качество жизни в том или ином регионе, приходится глубоко вникать в проблемы его жителей, и лучшей возможностью для этого является «жалобная книга», которую представляют собой нынешние социальные сети.

Вячеслав Гойко, директор Центра прикладного анализа больших данных Национального исследовательского Томского государственного университета и номинант на премию CDO Award 2021, рассказал о реализации проекта «Оценка качества жизни населения регионов Российской Федерации по данным социальных медиа». Выводы о благополучии людей, полученные с помощью анализа их поведения в соцсетях, способны стать важным дополнением к традиционным статистическим методам и помочь в выработке управленческих решений, направленных на улучшение жизни граждан.

- Попытка измерения благополучия населения — важная задача. В некоторых странах есть даже министры по счастью. Как родилась идея использовать поведение людей в соцсетях для определения их качества жизни?

Тема благополучия и качества жизни в последнее время стала весьма актуальной. В научных кругах появилась концепция следующей, цифровой эпохи Индустрии 4.0. Ее жители — наши дети, которые родились с гаджетом в руках и многое воспринимают несколько иначе. Например, они хорошо принимают шеринг-экономику и восприимчивы к экологическим вопросам. Поэтому новая концепция направлена в первую очередь на повышение качества жизни людей и изучение новых аспектов их благополучия.

С другой стороны, все существующие методики основаны на субъективных оценках — то есть базируются на различных опросах. Объективные оценки строятся в основном лишь на статистических данных, мы же предлагаем использовать в качестве источника информации открытые данные.

Тематика родилась не случайно: наш Центр прикладного анализа больших данных, созданный в 2016 году, до недавнего времени назывался Лабораторией наук о больших данных и проблемах общества. Этими проблемами общества мы и занимались, поэтому задача измерения качества жизни населения буквально витала в воздухе. Мы начали работать с соцсетями, увидели, какие возможности дает анализ открытых данных из них, и в 2018 году возникла идея попробовать измерить «цифровое качество жизни».

Оказалось, что соцсети по своей сути представляют большую жалобную книгу. Соотношение негативных и позитивных сообщений составляет 7:1, то есть 85% контента имеет негативную тональность! Люди любят жаловаться, причем развитие интернета дало возможность высказываться всем. И в таких сообщениях часто содержится описание насущных проблем с привязкой к местоположению граждан, их социально-демографическому статусу, образованию. В отличие от опросов, где число респондентов исчисляется тысячами, здесь охват достигает десятков миллионов людей — получается довольно большая выборка.

Конечно, есть и ограничения. В первую очередь пользователи соцсетей не совсем точно отражают демографический срез населения России — там очень мало людей пенсионного и предпенсионного возраста. Однако средний возраст пользователя сети «ВКонтакте» уже перевалил за 30 лет.

- Почему только отечественные соцсети? Нет ли ощущения, что из-за этого теряется что-то важное?

Наша страна уникальна тем, что у нас мировые ИТ-гиганты, такие как Google или Facebook, встречают активное сопротивление местных игроков, причем весьма успешное. Более того, сеть «ВКонтакте» предоставляет открытые API — интерфейсы для получения данных. С точки зрения исследователя, это отличная возможность. Facebook же в 2015 году свои данные закрыл.

- Какие данные используются и почему именно они?

В первую очередь мы работаем с такой сущностью, как сообщество людей. В последнее время у многих пользователей снизилась активность на собственной странице — люди перешли в мессенджеры. Но в сообществах, особенно региональных, они продолжают обсуждать свои проблемы. По подпискам человека можно с высокой долей вероятности определить его регион, а чуть больше четверти пользователей и сами указывают свое место проживания. Весь контент мы обезличиваем, но оцениваем суть написанного и соотносим высказывание с субъектом РФ.

В итоге у нас появляется относительно объективная картина проблем и позитивных событий, присутствующих в обществе каждого из регионов. Даже несбалансированность негатива и позитива играет нам на руку, потому что динамика проблем отображает изменение качества жизни. Например, в известной пирамиде Маслоу потребность в безопасности находится внизу, являясь базовой. Поэтому люди сначала жалуются на безопасность, а уже потом — на отсутствие кинотеатров и других мест культурного проведения досуга. Это тоже может показывать прогресс или регресс качества жизни.

В масштабах региона получается неплохой слепок. Например, в Томской области проживают около 1 млн человек, свыше 300 тыс. из них пользуются сетью «ВКонтакте». По этим данным вполне возможно оценивать и состояние людей, и его динамику.

- Когда был начат проект? Какие этапы включал и каких реальных результатов с тех пор удалось добиться?

В 2018 году стартовал пилотный проект. В его ходе мы научились в полуавтоматическом режиме искать региональные сообщества, выгрузили из них весь контент за год. Даже с учетом относительно небольшой выборки это были миллионы сообщений, вручную их анализировать невозможно.

Далее мы перешли к следующему этапу — формированию ручной обучающей выборки для создания алгоритма, сортирующего сообщения по категориям. В пилотном проекте были определены 19 категорий (ЖКХ, образование, медицина и т. п.) и 3 сферы: социальная, экономическая и политическая. Наш подход оказался правильным: разметив большое количество сообщений, мы добились того, что алгоритм начал классифицировать сообщения с высокой точностью. Более того, он достаточно точно определял тональность сообщения, и уже с помощью этого удавалось делать определенные выводы. В следующем, 2019 году в наших данных появилась динамика, а кроме того, мы расширили классификацию сообщений. Результаты ожидались интересные, и нам удалось получить грант на проведение этого исследования.

Уже в 2020 году к нашей работе проявили интерес органы местного управления — администрации Томской области, Якутии, Архангельской области. Нам удалось связаться с Центром перспективных управленческих решений (ЦПУР), который нас поддержал в плане улучшения методологии. Причина их внимания очевидна: проект может с высокой точностью показать проблемы, актуальные для определенных регионов. Это может стать дополнительным инструментом мониторинга изменений. Наконец, мы начали сотрудничать с ВЦИОМ на тему сопоставления наших онлайн-данных с их опросами.

Сейчас наша задача — доработать методологию и нивелировать перекос в сторону молодежи. Очевидно, что мы пока достаточно плохо видим проблемы старшего поколения. Кроме того, нас интересует еще один важный параметр — субъективное психологическое благополучие, которое является показателем психологического состояния человека, а не только его отношения к внешнему миру. Есть много примеров того, что человек счастлив даже при плохом состоянии окружающего мира, и наоборот.

- Какие математические методы использовались в ходе исследования?

Классические методы машинного обучения. В ходе проекта мы использовали мощности суперкомпьютера СКИФ Cyberia, которым обладает ТГУ. К сожалению, в таких объемах ни хранить, ни собирать данные на обычных компьютерах невозможно. Обучение нейросетей также будет происходить очень медленно.

- Очевидно, в этом проекте речь идет не только о математике, но и о других дисциплинах — психологии, социологии и т. п. Какие специалисты и откуда привлекались, в чем заключалась их роль?

Проект поддержан Университетским консорциумом исследователей больших данных, в который входят 30 вузов. Ядром команды выступают специалисты из ТГУ. Научным руководителем проекта стал Евгений Щекотин из НГУЭУ, занимающийся вопросами субъективного благополучия. Кроме того, активно помогали коллеги из САФУ и СВФУ. Также мы работаем с компаниями «Форексис», которая помогает с машинным обучением, и Megaputer Intelligence, у которой есть хороший инструмент текстовой аналитики PolyAnalyst.

Наш коллектив объединяет компьютерщиков, социологов, психологов, лингвистов, экономистов. В нашей работе очень важна роль психологов. Проведя полноценное традиционное тестирование нескольких тысяч человек и затем проанализировав их цифровой след в социальных сетях, можно получить неплохую модель, способную по цифровому следу определить психологические характеристики человека.

Например, отдельное и важное направление нашего исследования — измерение качества жизни людей в Арктике. Это крайне важный для России регион с геополитической точки зрения, существует специальная стратегия его развития. Но пока непонятно, как повысить там качество жизни: несмотря на высокие зарплаты, люди уезжают из-за сурового климата и слабой инфраструктуры… Я бывал зимой в Архангельске. Световой день длительностью четыре часа производит гнетущее впечатление даже на сибиряка, провоцируя депрессию.

- Иногда решение сложной задачи приходит из совершенно другой области. Может ли оказаться, что мониторинг настроений в соцсетях заменяет официальную статистику или превосходит ее?

У нас несколько разные задачи: у статистики — количественные измерения, у нас — субъективные. Хотя они и идут бок о бок, для нас главными единицами измерения являются настроение человека и социума региона в целом. Поэтому статистика скорее дополняет наши методы, а вот с точки зрения ЦПУР, появление еще одного показателя может обогатить имеющиеся государственные данные. Таким образом, задача решается с разных сторон, и мы фокусируемся на извлечении из количественных данных качественных результатов: какие проблемы существуют, откуда они появляются и для кого важны.

- Что в ходе этого проекта было самым сложным?

На этом проекте мы набили много шишек. Это не умерило наше энтузиазм, но научились мы многому. Мы и раньше работали с алгоритмами машинного обучения, и нам приходилось классифицировать данные. Но размечать в таком объеме неструктурированные тексты, и в первую очередь жалобы, оказалось крайне сложно с концептуальной и содержательной точек зрения. Как отличить тематику одного сообщения от другого, если они описывают одно и то же событие? Кроме того, требуется с большой точностью разметить сообщения по тональности.

Подготовив разметчиков (целый коллектив, который размечал специально подготовленную выборку сообщений), мы начали работу — и результат нас расстроил. В ходе кросс-валидации (когда несколько человек независимо друг от друга размечают одни и те же сообщения) выяснилось, что точность работы крайне низка. Люди одно и то же сообщение зачастую трактуют совершенно по-разному, на таких данных обучать алгоритм невозможно. Пришлось потратить гигантские усилия, чтобы довести качество ручной разметки до приемлемого уровня. Как известно, самое сложное в обучении искусственного интеллекта — чтобы перед этим хорошо отработал интеллект естественный.

- Были ли в ходе проекта открытия, удивившие вас?

Оказалось, что регионы-соседи могут кардинально отличаться по восприятию качества жизни. Казалось бы, между людьми всего 200 км, но у них совершенно различное восприятие окружающего мира. Наша страна оказалась огромной не только территориально: проблемы сильно разнятся, причем нет универсального пути их решения. Скажем, если повсеместно отремонтировать дороги, люди счастливыми не станут. Чтобы принимать решения, нужно точно, до мельчайших подробностей знать ситуацию на местах.

Кроме того, это был первый проект, в котором мы работали бок о бок с гуманитариями. Первые полгода мы учились разговаривать на одном языке. Я по базовому образованию инженер-физик, и долгое время жил только в техническом мире. Реализация этого проекта заставила меня задуматься о гуманитарных проблемах. Честно скажу, я всегда считал, что главным критерием качества жизни является доход, а значит, в более богатых регионах качество жизни должно быть выше. Оказалось, что это совсем не так: он имеет значение лишь до определенного момента. То есть если всех людей сделать богатыми, счастливыми они не станут — как и в случае с хорошими дорогами. Поняв это, я слегка переосмыслил свои планы на эту жизнь.

- Что показывает практика? Какие действия в соцсетях наиболее показательны для оценки качества жизни?

С точки зрения нашей методологии показательнее всего комментарии. Ведь человек не просто «лайкнул» сообщение, но и потратил время на написание текста. Кроме того, если тема «горячая» и комментариев много, человек тратит много времени и на чтение дискуссии. Возникает гипотеза, что проблема действительно зацепила человека. Помимо содержания поста, мы используем лайки и репосты, чтобы оценить важность информации.

Но наша модель пока не учитывает распространение информации, а с этой точки зрения главный инструмент — репост. Более серьезный учет этого фактора остается в планах на будущее.

- Иногда человек ведет себя в Сети иначе — не как в реальной жизни. Является ли это проблемой для используемых методов анализа? И если да, то как она решается?

Да, часто люди в Сети себя ведут несколько по-другому, и это проблема. Если главная роль соцсети — жалобная книга, то вторая по значимости — место, где можно похвастаться чем-либо, и поэтому искажения неизбежны. Но нашими главными объектами наблюдения являются не люди или их посты, а обсуждения — то есть действия в сообществе, и там влияние индивидуумов снижается.

Но зато мы в явном виде столкнулись с тем, что позитивные новости во многих сферах жизни социально не одобряются. Если у людей все хорошо и они об этом рассказывают, то их мгновенно причисляют к «кремлеботам» и это сильно влияет на дальнейшие обсуждения. Конечно, есть и настоящие бот-аккаунты, привносящие определенную активность, и их приходится фильтровать.

Сейчас мы проводим исследование, чтобы понять, как и насколько сильно психологические черты человека проявляются в онлайне. Для этого нам нужны результаты традиционных офлайн-исследований, чтобы сверить их со своими наблюдениями.

- Очевидно, сам по себе анализ мало что дает, помимо определения общей картины. Гораздо важнее выдаваемые рекомендации к действию для изменения ситуации. Делаются ли уже попытки провести практические мероприятия на основе выведенных индексов?

До конца 2021 года при поддержке ЦПУР мы продолжим улучшать методологию, и одним из результатов станет разработка определенных рекомендаций по изменению ситуации в том или ином регионе. Именно для этого нам необходимо состыковать свои результаты с офлайн-исследованиями.

Сила нашего метода заключается в том, что мы можем спуститься до конкретного населенного пункта (разумеется, если его жители активно пользуются социальными сетями) и делать аналитику только по нему. Например, известна проблема оттока населения из сельской местности. Однако в период пандемии только из Москвы за город выехало 1–1,5 млн человек. Это отличная возможность замотивировать часть из них остаться в деревне — надо правильно спланировать соответствующие мероприятия. Для этого можно использовать нашу методологию: понять, чем люди недовольны; найти наиболее перспективный регион; оценить цифровой портрет человека, готового переехать жить за город, и определить число таких людей.

Мы сотрудничаем с администрациями Томской области и Якутии, пытаемся составлять для них первые практические рекомендации. Но следует быть очень осторожными: при использовании искусственного интеллекта неизбежно возникают этические вопросы. Все-таки качество жизни целого региона — весьма большая ответственность, поэтому мы стараемся делать эксперименты в малых масштабах, чтобы не навредить.

Кстати, у нас есть внутренний этический комитет. Мы исследователи, поэтому придерживаемся определенных правил. Во-первых, не используем персональную информацию, а ограничиваемся обезличенными данными. Во-вторых, стараемся перепроверять данные, прежде чем делать какие-либо выводы. Для уточнения выводов приглашаем представителей разных областей, в том числе органов власти, чтобы вместе выработать план действий. Наша цель — не распространять информацию о наличии проблем, а подготовить аналитику, которая поможет в принятии управленческих решений.

- Каким вы видите будущее этого проекта? Какое место он должен занять среди инициатив, направленных на социальную сферу?

Одним из главных результатов является проверка связи между онлайн- и офлайн-миром. С развитием технологий все больше людей будут проводить массу времени в Сети. Если мы научимся качественно анализировать онлайн-данные, которые порождаются цифровыми следами людей, то сможем персонифицировать разнообразные государственные блага. Мы будем понимать, где в условиях ограниченных ресурсов нужно строить детский сад, а где в первую очередь надо отремонтировать дорогу. Это даст возможность не только оценивать качество жизни, но и повышать его.

- Есть ли в этом риски?

Да, у нашего проекта есть несколько рисков, и главный из них — возможность мошенничества. Можно посадить специально обученных людей, которые будут генерировать контент, нужный заинтересованным лицам. Они будут сильно влиять на результаты анализа по какому-либо небольшому региону.

Скажем, у многих детей есть два аккаунта в соцсетях: один — «для родителей», а другой — для реальной жизни. Примерно то же самое может произойти и в нашем случае, и это опасно. Именно поэтому мы очень осторожно говорим об управленческих решениях на основе наших рекомендаций. И пытаемся перейти к качественным обезличенным показателям, чтобы свести к минимуму возможности фальсификации.

- Надо ли бояться своего цифрового следа?

Говоря о цифровой безопасности, многие впадают в истерику по поводу возможной слежки. Люди склонны к паранойе, всем нравится идея, что они для кого-то важны. Но мало кто задумывается, что все наши письма читает алгоритм антиспама. Многих этот факт приведет в бешенство, а лично я готов с этим мириться, лишь бы получать меньше спама. Можно принять некоторый уровень надзора ради большего комфорта.

Сейчас многие платформы дают возможность выбора — например, закрыть свой профиль. В первый месяц после появления такой возможности некоторые пользователи закрывали свою стену, но через некоторое время произошел откат: люди более трезво взглянули на потребность ограничения доступа к своей информации.

С точки зрения цифровой безопасности лучшее место — тайга, где нет связи. Но если мы живем в социуме, то следует развивать цифровую гигиену. Соцсети можно сравнить с краном, из которого течет грязная вода, и эту воду надо фильтровать, причем этим должны заниматься сами площадки. И надо сказать, что многие в этом преуспевают.

Один мой знакомый говорит: «Я всегда веду себя так, будто за мной наблюдают». Это один из наиболее разумных вариантов.

Большие данные

Новгородская область: данные против ДТП

09:58 19.02.2021 | Ирина Шеян |

Минцифры Новгородской области запускает систему для снижения аварийности на дорогах. Андрей Майоров, министр цифрового развития Новгородской области, рассказывает о зарождении культуры управления на основе данных и об одном из первых проектов, в котором данные помогают предотвращать человеческие и финансовые потери. Читать...

Потенциал управления на основе данных еще далеко не раскрыт, однако мы продолжаем знакомить вас с весьма амбициозными попытками реализовать этот потенциал уже сегодня. В Великом Новгороде запустили цифровой сервис, который поможет сберечь и человеческие жизни, и бюджетные средства. В его основе — аналитическая система, предназначенная для ликвидации очагов аварийности на дорогах и предотвращения их возникновения. Номинант на премию CDO Award 2021 Андрей Майоров, министр цифрового развития Новгородской области, рассказывает о том, как приживается data-driven-подход в государственном управлении, что этому мешает и как удалось создать сервис для снижения ДТП.

- Как вы пришли в управление на основе данных?

Я проектировал средства организации дорожного движения, занимался транспортным моделированием, был одним из разработчиков транспортной модели Санкт-Петербурга — одной из первых ГИС в стране и до сих пор одной из самых точных. Приходилось выполнять сбор данных и их обработку. Тогда мы впервые познакомились с данными сотовых операторов для калибровки транспортной модели — еще до того, как это стало мейнстримом. Работали с GPS-треками для калибровки модели по скоростям, выстраивали матрицы корреспонденций, считали вероятности совершения поездки в зависимости от расстояния и пр. Весь математический аппарат транспортной модели — это, по сути, база управления на основе данных, то, что сейчас называют работой CDO. Когда я приехал в Новгород и прошел обучение на курсе подготовки CDO, то понял, что мне это знакомо. Я все это делал руками сначала как специалист, потом — как начальник управления, а теперь продолжаю этим заниматься уже как министр.

- Неужели ничего нового не узнали на курсе CDO?

Конечно, мир не стоит на месте. Появляются новые способы обработки данных, внедряется машинное обучение, стало больше так называемых государственных данных. Раньше был дефицит данных, а теперь, наоборот, избыток. Перед CDO встает проблема — понять, что это за данные и к чему их можно применить. Наиболее ценный человек сегодня — тот, кто ставит задачу аналитикам. Эпоха поиска и обработки данных уже позади, раньше это делали лучшие умы, а сейчас — студенты. Всего лишь за два-три года наступила эпоха исследований данных и поиска алгоритмов. Сохраняются общие принципы, но развиваются технологии, смещаются акценты и изменяется ценность конкретных специалистов. То, что раньше делали люди, сегодня выполняется без их участия.

- Какова роль управления данными и data-driven-подхода в вашей работе сегодня?

Мы сейчас активно прививаем культуру управления на основе данных. Конечно, по-прежнему существует в умах и старая парадигма принятия решений на основе собственного мнения, чутья. Иногда такие решения бывают очень точными, но это не современный подход. Решения, принятые на основе данных, всегда на порядок точнее, даже если математическая модель создана в Excel. Пока мы сделали первые два шага: переломили старую парадигму управления и начали создавать более удобный аппарат для принятия решений на основе данных.

- Неужели всего за полгода удалось сломать старую модель управления?

Конечно нет. Отдельные «очаги» управления на основе данных возникали и раньше — в головах людей, прошедших обучение профессии CDO. Но процесс шел медленно. Не могу сказать, что сейчас классическая парадигма управления полностью переломлена. Но когда data-driven-подход поощряется (а у нас он поощряется губернатором) и появляется все больше примеров его применения, то изменения происходят значительно быстрее. Чиновники не станут работать по-новому, если руководитель этого не требует. А когда губернатор спрашивает, на основе каких данных вы приняли такие решения, то все понимают установку: значит, надо работать с данными. И тогда начинается поиск: у кого есть нужные данные, как их обрабатывать, как деперсонализировать, как выстроить алгоритм, чтобы ответить на этот вопрос. И рано или поздно начинает меняться вся управленческая культура. Может быть, она не изменится на все 100%, но динамика, которую я вижу за последние полгода, очень хорошая, я ею доволен.

- Однако статистическими данными при желании можно подкрепить любую картину. Помимо запроса «сверху», нужна еще внутренняя потребность руководителей по-настоящему опираться на данные, отражающие реальную картину. Вы не согласны?

И да и нет. Статистические данные, честно говоря, реальными данными не считаю. К примеру, вся страна в рамках программы «Цифровая экономика» оценивалась по доле домохозяйств, подключенных к широкополосному интернету. У нас этот показатель был недостаточно хорош, я начал искать источники данных и выяснил, что эти сведения собирают с помощью социологического исследования — то есть устного опроса! И они попадают в статистику. Но это же глупо.

Вся информация о проводных подключениях есть у провайдеров, но тут встает вопрос о том, кому она принадлежит. В стране недостаточно открытых данных! У нас регион небогатый, мы не можем себе позволить регулярно приобретать данные сотовых операторов, хотя я понимаю, где их можно применять: в транспорте, туризме, спорте, в решении вопросов безопасности. Например, чтобы охватить видеонаблюдением места с максимальным количеством людей и понять, где именно нужны камеры для обеспечения безопасности, можно на точки концентрации людей наложить точки совершения преступлений.

Все начинают осознавать необходимость опираться на данные, но качественная информация стоит денег. Без концепции открытых данных мы далеко не уедем — будем возвращаться к статистике, получаемой социологическими опросами, и все наши навыки по добыче данных, их интерпретации, анализу и по управлению на основе данных в таком случае бессмысленны.

- Наверное, придется договариваться с операторами данных на взаимовыгодных условиях?

Мы пытаемся, иногда приходится что-то и оплачивать. Например, когда весной 2020 года в разгар паники люди массово поехали на дачи, стало ясно, что они принесут COVID-19 туда, где и врачей-то нет — только фельдшер. Нужно было определить по данным сотовых операторов, куда и в каком количестве едут люди. Телекоммуникационные компании понимали, что это социально значимая задача и пошли на уступки. Мы заключили контракт на отправку сообщений абонентам, которые не зарегистрированы в Новгородской области, но в ночное время находятся в радиусе действия одной из базовых станций на нашей территории. По концентрации таких абонентов нам дали статистику, и мы смогли хотя бы перераспределить врачей, потому что в некоторых районах население выросло в 10–12 раз.

- Как в министерстве определяется политика работы с данными?

Во-первых, у нас есть несколько гипотез относительно того, какие данные повысят вероятность принятия правильных решений. Во-вторых, мы знаем, кто эти данные теоретически может нам поставить. И в-третьих, мы пытаемся найти способ получить данные и выявить организации, которые на взаимовыгодных условиях нам их предоставят. Мы ищем партнеров на хакатонах, среди тех, кто подает заявки на конкурсы типа АСИ Data Masters, где мы ставим задачи.

- Какую задачу вы ставили перед собой в первую очередь, создавая систему анализа дорожно-транспортных происшествий?

Первоочередной задачей было снижение количества ДТП с пострадавшими и погибшими. В условиях ограниченных ресурсов мы должны расходовать деньги максимально эффективно. Проведя анализ, мы увидели, что, используя подход, основанный на анализе данных, тем же количеством денег можно закрыть большее число очагов аварийности, что в конечном итоге приведет к снижению и числа ДТП, и количества раненых и погибших.

- Как родилась идея этого проекта? Что вам удалось сделать?

Идея анализа ДТП частично перекликается с моим предыдущим опытом. Задача сделать предиктивную аналитику, чтобы понимать, где будут происходить ДТП в текущих условиях, была поставлена на конкурсе Агентства стратегических инициатив (АСИ) Data Masters, и мы присоединились к ее решению. Разработчик умел геокодировать, делать тепловые карты, но нам нужно было не представление данных, а аналитика. Мы взяли данные обо всех искусственных неровностях с адресами и датами установки, чтобы выяснить, насколько эффективен такой тип устранения очагов аварийности по сравнению, например, с установкой пешеходных ограждений. Нам нужно было оценить, сколько мы потратим денег и какой получим эффект в сокращении количества ДТП, числа раненых и погибших. Зная, сколько было потрачено до аварий и после них, можно посчитать, во сколько обошлось предупреждение одного ДТП и спасение одной жизни.

Это комплексная задача, решая которую, мы отработали получение данных от ГИБДД, так как обычно данные о ДТП без пострадавших не анализируют — в соответствии со всеми существующими методиками работа ведется только по ДТП с пострадавшими. Но зачастую эти ДТП — одного типа, даже скорость может быть одинаковой, поэтому, работая только по существующим нормативным документам, мы сильно ограничиваем себя в части анализа данных.

Методики работы с большими данными у нас не было. Подав заявку на конкурс, мы поняли, что, имея данные об интенсивности движения транспортных средств, сможем определять приведенное количество ДТП (на 1 тыс. автомобилей) и делать предиктивную аналитику — выявлять опасные места не только на основных улицах, где машин уже много, но и в местах, которые станут опасными в случае увеличения транспортных потоков.

Рабочая группа проекта оперативно «подавала патроны» разработчику: добывала данные и давала гипотезы для аналитики. Разработчику понравилось с нами работать, и он дополнительно сделал тепловую карту расстояний от зданий и сооружений до остановок общественного транспорта. Таким образом, мы увидели зоны, где до остановки необходимо идти пешком более 500 м, и теперь понятно, как их перемещать, чтобы охватить большую территорию.

Но главное — мы создали новый инструмент для работы с большим объемом данных. Это позволяет начать работу до того, как появился очаг аварийности, и проводить лишь те мероприятия, которые дают максимальный социально-экономический эффект. И все это мы можем делать благодаря тому, что у нас накоплены исторические данные относительно того, какое обустройство позволяет лучше всего предотвращать ДТП за меньшую приведенную стоимость.

- Какие источники данных вы использовали?

Данные обо всех ДТП, произошедших на всех улицах за необходимый для анализа период, мы взяли у ГИБДД. Только часть этой информации является публичной, поэтому первым делом мы договорились о получении полного объема данных, включая происшествия без пострадавших. Доля ДТП, которые оформляются через европротокол, настолько ничтожна, что ими можно пренебречь. Чтобы вытащить данные об установке «лежачих полицейских», о размещении камер фотовидеофиксации и других мерах, принятых для снижения аварийности, мы прошерстили планы их расположения и акты о выполнении работ, оцифровали контракты и перевели их в машиночитаемый вид. Данные об интенсивности дорожного движения взяли из сервиса «Яндекс.Пробки».

- Как решается вопрос качества данных?

Качество данных ГИБДД было низким, и потребовалась их постобработка, так как информация о ДТП привязывается к дому, а не к точному месту происшествия. А вот данные, которые мы извлекали вручную, сразу заносили в шаблоны разработчика в удобном для него виде. Ручной обработки было очень много.

- Какие ИТ-платформы применяются?

Для привязки ДТП к конкретной улице мы применили граф дорожной сети OpenStreetMap, «Яндекс.Пробки» предоставили нам выборку данных по скоростям за определенный период, а для обработки данных разработчик использовал сервис MapBox.

- Что стало самой большой проблемой при реализации этого проекта?

Самым сложным оказалось объяснить коллегам-транспортникам, что им нужен такой инструмент. Они борются с существующими очагами, работают по показателям, и работа на опережение в их нормативных актах не была предусмотрена — соответствующих показателей не было. Как всегда, происходит «борьба противоположностей» — мы предлагаем цифровые решения, а нам говорят: «Мы без этого 20 лет жили и дальше проживем, это ни на что не повлияет, новых «дырочек» для орденов сверлить не придется».

- Как же вам удалось их переубедить?

Упирали на то, что такой практикой можно гордиться и что можно показать себя с лучшей стороны на федеральном уровне, хотя на текущих показателях это и не отразится. Такая мотивация «зашла». Кроме того, было множество небольших информационных «вбросов»: что вся страна сейчас живет на основе данных, что этот подход диктуется премьер-министром, вы попадете в мейнстрим и т. п.

После того как мы «заразили» коллег из Минтранса, они уже убеждали ГИБДД.

- Какого эффекта от внедрения вы ждете?

В течение ближайших двух-трех лет за счет снижения аварийности мы получим экономию бюджетных средств, направляемых на устранение последствий ДТП.

- Каким вы видите дальнейшее развитие проекта?

Нам предстоит выпустить нормативный акт, обязывающий своевременно подгружать данные в систему и принимать решения на их основе. Возможно, станем проводить дополнительное обучение пользователей, когда будем заключать контракт на развитие системы. Когда системой начинают пользоваться, всегда возникают новые запросы. Развитие диктуется практикой: будет наработана практика — пойдет и развитие.

- Есть ли у вас сегодня в работе другие проекты, основанные на данных?

Да, есть несколько проектов: по прогнозированию уровня весеннего половодья, по выявлению точек концентрации туристов на особо охраняемых природных территориях. Это внешние системы, которые позволяют делать то, что раньше толком не получалось.

- Как вы планируете развивать управление данными в целом?

Планируем сделать портал открытых данных не для галочки, а для его активного использования — чтобы данные были востребованы, чтобы их было легко использовать, чтобы был общий файл с метаданными для понимания того, что есть у региона. Будем проводить хакатоны с использованием этих данных и подключать бизнес, чтобы на основании этих данных для людей создавались удобные сервисы. И конечно, продолжим формировать культуру управления на основе данных: доля решений, принятых на основе данных, должна приближаться к 100%.

Андрей Майоров — министр цифрового развития Новгородской области. По образованию инженер, окончил Санкт-Петербургский государственный архитектурно-строительный университет по специальности «организация и безопасность движения». В 2019 году прошел обучение по программе «CDO (Chief Data Officer) — управление, основанное на данных», которое проводил Университет 2035 на базе Новгородского государственного университета имени Ярослава Мудрого. Вошел в топ-300 лучших управленцев страны как финалист конкурса «Лидеры России — 2018/2019». В 2020 году прошел профессиональную переподготовку в Институте «Высшая школа государственного управления» РАНХиГС по квалификации «мастер государственного управления для руководителей». На посту министра, который Андрей занимает с лета прошлого года, он курирует цифровую трансформацию Новгородской области, отвечая за реализацию национальной программы «Цифровая экономика».

Бесплатная аналитика от «Сибура»: цифровая забота о клиентах

Большие данные

Бесплатная аналитика от «Сибура»: цифровая забота о клиентах

13:59 12.02.2021 | Николай Смирнов |

Алексей Винниченко, руководитель центра аналитики компании «Сибур», — об аналитических проектах, реализуемых для клиентов компании. Анализ клиентских производственных данных помогает радикально сократить число инцидентов на производстве, что выгодно всем: клиенты повышают свою эффективность, а «Сибур» увеличивает продажи. Читать...

Иногда проблемы клиентов могут стать проблемами компании. Это выливается в дополнительные издержки, а в отдельных случаях ведет и к потере клиентов. В «Сибуре» считают, что лучший способ обеспечить лояльность бизнес-партнеров — совместная работа по минимизации числа возникающих инцидентов. С этой целью компания запустила бесплатные проекты по анализу производственных данных клиентов. Результатом становятся рекомендации по оптимизации производственных процессов, способные заметно повысить эффективность работы заказчиков. О том, как компания пришла к такой деятельности, о ее результатах и перспективах рассказывает Алексей Винниченко, руководитель центра аналитики компании «Сибур» и номинант на премию CDO Award 2021.

— Как родилась идея коллаборации с партнерами для улучшения качества продуктов? О том, что совместной работой с общими данными можно добиться большего, говорят многие, но до практики дело обычно не доходит.

В 2018 году в «Сибуре» стартовала масштабная программа цифровой трансформации. Одним из ключевых направлений в ней стала продвинутая аналитика, объединяющая подходы big data и data science. За эти три года мы реализовали много успешных внутренних проектов. В результате у нас выработались определенные методологии и лучшие практики. Удалось создать современную инфраструктуру по работе с данными. Это привело к мысли о том, что если получаются внутренние проекты, то было бы неплохо включить в периметр и клиентов — заводы, производящие продукты из наших полимеров.

У нас есть служба заботы о клиентах — технический сервис, который помогает им решать возникающие проблемы. Но нефтехимия — сложное производство, в нем далеко не все тривиально, и, несмотря на все усилия, у многих клиентов остаются проблемы брака на производстве. Это не всегда связано с нашим сырьем, встречаются проблемы с оборудованием, нарушением технологического режима и рецептуры производства. Наши клиенты — довольно небольшие предприятия, по крайней мере по сравнению с «Сибуром», и у них совершенно точно не хватает внутренних компетенций для проведения углубленной аналитики. Исследование (или даже расследование) проблем стандартными средствами, а также поиск путей их решения и разработка рекомендаций занимали у нас до нескольких лет. Сначала требуется анализ экспертов, натурные эксперименты, затем — модификация оборудования и процессов. Это долго и затратно.

Оборудованием по сбору данных мы оснащены с 2014 года, наши производственные данные копятся уже много лет. Реализуя проекты у себя, мы поняли, что с помощью данных можем увидеть след любой проблемы. И рекомендации по исправлению любой ситуации можно разработать существенно быстрее и с гораздо меньшими затратами.

Мы выбрали наиболее «проблемных» клиентов, показали им результаты своих внутренних проектов и обратились к ним с предложением попробовать «решить проблему по-умному». Так завязались первые контакты, и за прошедший год удалось успешно реализовать два таких проекта. Мы берем клиентские данные, «склеиваем» их с нашими, моделируем всю производственную цепочку, находим проблему и даем рекомендации по ее устранению. В одном из первых же проектов брак удалось свести практически к нулю без какого-либо физического вмешательства.

Таким образом, к идее мы пришли эволюционным путем через успешные эксперименты внутри нашей компании. Теперь мы решаем проблемы клиентов, попутно выявляя и свои — иногда часть причин находится на нашей стороне.

— Сразу ли рассматривался этот сценарий при развитии в «Сибуре» направления работы с данными?

Три года назад такое даже представить было невозможно: мы еще только начинали, и уровень цифровой зрелости был недостаточным. Уже в процессе работы появилось понимание того, что можно расширить охват исследований.

В 2020 году у нас был запущен новый завод «ЗапСибНефтехим» — крупнейший на постсоветском пространстве. Он обеспечил потребности в базовых полимерах внутри страны, что позволило отказаться от их импорта. Теперь начинаем думать о выходе на международные рынки, где уровень конкуренции гораздо выше. Там совершенно недостаточно просто производить хорошую продукцию — нужно думать о сервисе и новых услугах. С этой точки зрения наши действия абсолютно логичны. После выхода из коронавирусного локдауна, который нас заметно притормозил (все командировки и встречи оказались под запретом), мы возобновим работы по развитию клиентских сервисов на базе данных.

— Как относятся бизнес-партнеры к идее делиться своими данными? Вероятно, далеко не все к этому готовы — и психологически, и технологически.

Да, эмоциональный момент очень силен. Такой вопрос всегда возникает, но у нас на него готов ответ. Все-таки мы не банк, и передаются вовсе не персональные или финансовые данные. Мы снимаем с оборудования технологические показатели: температуру, давление, осевые смещения и т. п. Сами по себе они не представляют особой ценности. Единственное, что иногда вызывает сомнение, — возможность через данные раскрыть рецептуру того или иного продукта. Но обычно удается прийти к взаимопониманию. Кроме того, со многими клиентами уже сложились отношения, в которых достигнут определенный уровень доверия: гипотетические риски не воспринимаются ими как серьезные.

Что касается технологической возможности выгрузки данных, то этот вопрос действительно является ключевым. Далеко не у всех клиентов оборудование достаточно современное, и это проблема. Примерно с 2010 года производственные линии оснащаются модулями по выгрузке данных, а вот если оборудование более старое, сделать ничего нельзя.

Но недостаточно иметь физическую возможность выгрузить данные. Иногда требуется приобретать специальную лицензию на такой функционал. Мы столкнулись с этим на первом же проекте. Пришлось проводить переговоры с крупным немецким производителем оборудования. Нам удалось договориться о том, что для таких проектов в ряде случаев возможность выгрузки данных предоставляется бесплатно. Сейчас пытаемся добиться похожих соглашений с другими производителями. Я думаю, что мы договоримся.

Это выгодно всем, в том числе и производителям оборудования, которым клиенты присылают массу рекламаций по поводу некорректной работы агрегатов. В подавляющем большинстве случаев оказывается, что проблема не в железе, а в неумелых действиях персонала, однако сил на разбирательства тратится много. Наша работа с клиентами по поиску причин инцидентов может снизить поток претензий.

— Что первично: заинтересованность клиентов в таких дата-сервисах или «создание спроса» — демонстрация готовности их предоставить?

Любой клиент заинтересован в повышении своей эффективности: он стремится производить больше продукции в единицу времени, используя меньше ресурсов. А если он повышает свою эффективность, то сможет купить у нас больше полимеров. Именно поэтому наш сервис бесплатен: мы тоже заинтересованы в решении проблем клиентов.

К сожалению, не все заказчики знают такие слова, как data science и machine learning, — приходится проводить много образовательной работы. Но все понимают, что мы нацелены на обоюдовыгодный результат, поэтому вопросов бывает немного.

— Существуют ли на рынке аналогичные сервисы?

В российской нефтехимии подобных сервисов точно нет. И в Европе мы об этом тоже не слышали, по крайней мере как о массовой истории. Но чем больше индустрия будет продвигаться в модернизации оборудования, тем больше будет появляться возможностей для анализа данных. В будущем это может стать необходимым минимумом уровня клиентского сервиса.

— Какие проблемы возникают при реализации таких проектов? Как вы их решаете?

Большая часть проблем — это, конечно, организационные вопросы. Искать лиц, принимающих решения, объяснять, договариваться, заключать дополнительные соглашения... Сейчас средний срок реализации проекта составляет шесть месяцев, и из них лишь два месяца требуются на сбор и анализ данных, а остальное время уходит на решение организационных моментов.

Это всегда итеративная работа, требующая создания совместных команд. Начинается все с генерации гипотез о сути наблюдаемых проблем. Впоследствии мы пытаемся их проверить с помощью анализа данных. Две трети гипотез обычно оказываются несостоятельными, с остальными работаем плотнее. Сразу после выяснения причин проблемы мы можем выработать достаточно достоверные рекомендации. Затем проводим натурные испытания, где проверяем их «в бою». Если эффект стабилен, то проблема считается решенной.

— Когда фактически были начаты работы и что за это время удалось сделать?

Первый проект был задуман и начат в четвертом квартале 2019 года, и к концу первого квартала 2020 года его удалось завершить. Затем был реализован еще один проект. К сожалению, из-за пандемии все ограничилось этими двумя проектами. Однако мы можем говорить о том, что эффективность наших решений подтверждена последующим мониторингом.

Еще для одного клиента в Европе мы провели предварительную исследовательскую работу. Там нам пришлось столкнуться с устаревшим оборудованием. Мы выдали свои рекомендации, и заказчик начал модернизацию производственной линии, которая должна завершиться в августе нынешнего года. Мы к этому проекту обязательно вернемся.

— Какие эффекты были достигнуты? За счет чего?

Например, у первого клиента были проблемы с браком: происходили частые обрывы пленки. В установку загружается полиэтилен, который от нас приходит в виде гранул, расплавляется, растягивается в тонкую пленку и сматывается в рулон с огромной скоростью. Эта пленка довольно часто рвалась, а в случае обрыва агрегат останавливается и весь рулон бракуется — потери очевидны. Нам удалось снизить обрывность пленки в 8–10 раз. Общий экономический эффект этого проекта составил около 2 млн долл. в год. При этом мы сохранили клиента и увеличили ему поставки сырья.

— Приведите пример рекомендаций, которые могут выдаваться производителю и имеют очевидную ценность для него.

Разумеется, они имеют весьма технический вид. Например: держать дисперсию по температуре в реакторах полимеризации в определенных рамках.

Можно привести любопытный пример из другого проекта. Полимер, подаваемый на вход установки, обладает определенными характеристиками. Одна из них — длина молекул, которая должна находиться в пределах допустимого диапазона. Мы выяснили, что если этот показатель у всей партии сырья близок к одной из границ диапазона, то проблем не наблюдается. Но если смешиваются «длинные» и «короткие» молекулы, то на производстве возникают проблемы. Мы стали за этим более пристально следить и отправляем данному заказчику только те партии, где разброс по длине молекул именно тот, при котором переработка идет наилучшим образом. То есть иногда нам приходится делать персонализированный продукт под конкретного клиента.

Такие истории уникальны для каждого конкретного клиента. По большому счету не важно, почему именно так происходит, — возможны нюансы оборудования или особенности климата. Главное — определить, как избежать проблем, и следовать этим правилам.

— На каких продуктах построена цифровая платформа «Сибура»?

Главной ее частью является инфраструктура озера данных, в которой есть множество инструментов, в том числе data governance и data quality. Это дает нам уверенность в том, что используется только нужная и корректная информация, а не «мусор». Мы внимательно следим за качеством данных. Для сырых данных используется стек Hadoop, в качестве реляционной базы данных — Vertica. В большинстве случаев мы склоняемся к решениям open source, но в определенных ситуациях можем использовать и проприетарные системы.

Следующий слой — ML Framework. Это наша собственная разработка — платформа, позволяющая управлять жизненным циклом моделей машинного обучения. Такой «DevOps для моделей» позволяет радикально сократить процессы разработки и снизить издержки на интеграцию с другими системами и на внедрение в промышленную эксплуатацию. По всем моделям, запущенным в промышленную эксплуатацию, происходит мониторинг метрик качества в режиме реального времени, что позволяет нам доверять результатам работы наших моделей.

Наконец, важно отметить методологическую часть, аккумулирующую накопленный опыт реализации подобных проектов. Несмотря на различие индустрий, производственные проекты схожи друг с другом: сначала идут эксперименты, затем, найдя рациональное зерно, исследователи начинают копать глубже и т. п. Наработанные практики позволяют в начале проекта не раскачиваться слишком долго, а сразу идти по оптимальному маршруту.

В качестве инструмента визуализации и отчетности используем Tableau или, при необходимости более сложного пользовательского инструмента, разрабатываем UI с помощью библиотеки компонент SiburKit — собственной разработки на базе React.

— При анализе данных клиентов каждый раз приходится решать специфические задачи. Как минимизировать время и силы на их решение?

Это тоже часть нашей методологии. Мы используем слегка модифицированный Scrum и сразу создаем команду, в которую включены все необходимые представители заказчика, в том числе со стороны производства. Туда же входят дата-сайентисты, скрам-мастер и владелец продукта. Это позволяет, во-первых, исключить этап, когда все пишут друг для друга технические задания, которые обязательно будут неправильно поняты, а во-вторых, дает возможность двигаться короткими этапами и получать быструю обратную связь. Принцип fail fast позволяет сокращать издержки на погружение в процесс и быстро отбраковывать несостоятельные гипотезы. Участие заказчика в команде позволяет повысить вовлеченность и понизить затраты на коммуникацию.

При этом к концу проекта наши аналитики разбираются в производственных процессах не хуже технологов, несмотря на отсутствие опыта и специального образования. Через данные можно довольно глубоко погрузиться в процессы, а плотное взаимодействие с производственниками позволяет ответить на возникающие в ходе этого вопросы.

— Сейчас среднее время проекта оценивается в полгода. А что в планах? Каковы целевые показатели?

В идеале это три месяца, то есть наш показатель time to market должен сократиться вдвое. Если сейчас из шести месяцев проекта аналитическая работа занимает лишь два, то это вполне достижимо. С опытом у нас, несомненно, появятся лучшие практики по минимизации всех организационных проблем, что позволит значительно «схлопнуть» срок проекта. Разумеется, это не касается случаев, когда заказчику потребуется дополнительно оснащать производственные линии.

— Какова конечная цель этого проекта: возможность продавать более качественную продукцию по более высокой цене или что-то иное?

Скорее, это возможность выйти на высококонкурентные зарубежные рынки и закрепиться на них. Конечно, нас там никто не ждет с распростертыми объятиями. У предприятий уже существуют сложившиеся связи. И когда на рынок выходит новый игрок, ему приходится тяжело. Придется либо демпинговать, что неправильно, либо предлагать более качественный продукт и хороший сервис.

В целом мы фокусируем внимание на клиентоориентированности. Проведена очень большая работа, и мы хотим приблизиться к мировым эталонам в нашей индустрии. Те, кто не соответствует ожиданиям заказчиков, будут вынуждены постепенно уходить с рынка.

— В каком направлении будет развиваться этот проект? Платформой для каких новых сервисов он может стать?

Сейчас мы планируем масштабироваться экстенсивно, расширяя круг клиентов. Ближайший год, видимо, будет посвящен именно этому. Начали с «пленочников», а как только снимут ограничения, перейдем на «трубников» и «шинников». Накопив статистику и лучшие практики, сможем подумать и об интенсивном пути развития.

В будущем, вероятно, речь пойдет о предоставлении сервисов: рекомендательная модель будет работать на инфраструктуре «Сибура», а клиент просто получит к ней доступ и в режиме реального времени будет видеть дашборд со своими метриками и рекомендациями. Этот сервис вполне можно «завернуть» в цифровой продукт нового поколения.