Говоря о цифровой трансформации, обычно подразумевают перемены в бизнесе. Однако цифровизация отправляет на переплавку не только традиционные бизнес-модели, но и привычные способы социальной работы, придавая новую ценность решениям, основанным на данных. В компании «МегаФон» реализовали проект, который помогает волонтерам поисково-спасательного отряда «Лиза Алерт» искать пропавших людей. Алгоритм «МегаФон.Поиска» анализирует огромное количество информации и находит людей, которые были рядом с пропавшим человеком и могли его видеть.
О проекте, который спасает жизни, о подходах к работе с данными и шагах на пути к селф-аналитике, рассказал номинант CDO Award 2020 Леонид Черный, директор по управлению данными «МегаФона».
- Как зародился этот проект, c чего все начиналось?
Все началось с инициативы Big Data for Social Good ассоциации GSMА. Ее участники получили предложение подумать о вариантах использования искусственного интеллекта и больших данных для решения социальных проблем своего региона. К примеру, турецкий оператор связи Turkcell рассылает абонентам предупреждения о землетрясениях, от которых страдает восточная часть страны. Мы же считаем важным сделать поиск людей более быстрым и результативным. Проект «МегаФон.Поиск» был реализован совместно с нашим партнером «Лиза Алерт», с которым мы сотрудничаем с 2015 года, обеспечивая волонтеров связью и Интернетом во время поисковых работ. При подготовке проекта мы учитывали опыт Amber Alert — программы, которая уже много лет действует в США. В случае похищения или пропажи ребенка инициируется SMS-рассылка оповещений всем, чьи телефоны зарегистрированы в радиусе 70 миль от места, где его видели в последний раз. Причем эти сообщения игнорируют такие настройки телефона, как, например, беззвучный режим. Эта программа действительно спасает жизни, помогая находить детей.
У нас другая ситуация: мы действуем в рамках покрытия своей сети и используем нашу абонентскую базу. Получив одобрение GSMА, мы начали реализовывать проект, чувствуя в себе потенциал «нанести непоправимую пользу» обществу.
С Центром поиска пропавших людей, объединяющим большое количество волонтерских служб и поисковых отрядов, сейчас стараются сотрудничать все операторы, но другие проекты с подобными задачами мне неизвестны.
- С какими проблемами пришлось столкнуться и как с ними разбирались?
Волонтеры поисково-спасательного отряда «Лиза Алерт» собирают всю информацию о потерявшемся человеке, включая имя, возраст, пол, а также время и место, где его видели в последний раз. Затем координатор отряда вводит эти данные в веб-форму на poisk.megafon.ru. Алгоритм «МегаФон.Поиска» формирует список идентификаторов (Mobile Subscriber Integrated Services Digital Number, MSISDN) тех людей, которые потенциально могут располагать ценной информацией, и им рассылаются SMS о пропавшем человеке с просьбой выйти на связь с волонтерами.
|
Разрабатываемое решение должно было соответствовать нормам законодательства о персональных данных, о связи, о тайне частной жизни. Чтобы получившийся инструмент можно было легально использовать, потребовалось приложить много усилий по общению и согласованию работы не только членов моей команды, занимающихся большими данными, машинным обучением и искусственным интеллектом, но также юристов и специалистов по информационной безопасности. При этом мы находились в плотном контакте с регулятором и правоохранительными органами.
- Какие данные и из каких источников использует «МегаФон.Поиск»?
Мы применяем геоаналитику, модели машинного обучения, пользовательские сегменты и социальный граф. У нас большое собственное хранилище, содержащее в том числе информацию об абонентах. Также мы использовали телеметрию с базовых станций и информацию, предоставленную координаторами Национального центра помощи пропавшим и пострадавшим детям.
- Как действует механизм «МегаФон.Поиска»?
Информация о пропавшем человеке проходит несколько ступеней, прежде чем попадает в отряд «Лиза Алерт», где ее консолидируют. Все сведения вносятся в веб-форму на ресурсах «МегаФона», доступ к которой по двухфакторной авторизации есть у координаторов отряда.
На основании заполненной координатором веб-формы формируется ХML-файл, который содержит ссылку на загруженную на сервер ориентировку и остальную необходимую информацию. Наличие этого файла на сервере проверяется с интервалом в 1 минуту. С появлением файла запускается механизм, превращающий содержащуюся в нем информацию в набор параметров для системы машинного обучения, которая определяет перечень базовых станций, пул абонентов и формирует список идентификаторов.
Определив базовые станции, ближайшие к точке, где человек был замечен в последний раз, по логам телеметрии смотрим, кто из наших абонентов был зарегистрирован на этих станциях за час до и в течении часа после указанного координатором временного промежутка.
Если пропавший является нашим абонентом, то, помимо прочего, нам также известны наиболее частые входящие и исходящие звонки. Мы строим социальный граф по звонкам пропавшего, пересекаем эти два множества (социальный граф и телеметрию) и определяем круг людей, которые могли его видеть. Чем ближе к заданному промежутку времени их звонки, тем выше они в списке ранжирования. В результате формируется список из нескольких тысяч потенциальных свидетелей, которые могут обладать полезной для поиска информацией.
После проверки на соответствие правилам качества данный список отправляется на сервер. Программа сразу берет его в работу: рассылает по нему SMS со ссылкой на ориентировку, где есть фотография. Весь процесс занимает несколько минут.
- Какими результатами можете поделиться сегодня?
«Лиза Алерт» рассылает подобные сообщения с марта 2019 года. За 10 месяцев сервис использовался в 450+ поисках в более чем 40 регионах России. Количество наших абонентов, которые получают информацию, может варьироваться в довольно широких пределах — в зависимости от региона, времени суток и места, в котором пропавшего видели в последний раз. Для нас критичен не масштаб рассылки информации, а ее релевантность, так как именно это является фактором, позволяющим ожидать отклика с информацией, требующейся для успешного завершения поиска. Я сам попадал в такой список и получал SMS с ориентировкой. Это работает, потому что такая социальная роль большинству людей не чужда. Они чувствуют в себе внутренний импульс помочь и реагируют — это видно по количеству звонков и переходов по ссылке. Приблизительно в каждом третьем случае, когда используется «МегаФон.Поиск», люди звонят и оставляют информацию о потерявшемся. Количество переходов по ссылке на ориентировку еще выше. И самое прекрасное: уже есть кейсы, когда человек был найден благодаря свидетельствам, полученным через этот канал коммуникации (см. врезку 2).
- Как обеспечивается качество данных?
Мы применяем механизмы очистки данных, удаляем ранее не стертые логи людей, для которых присутствие на данной базовой станции нетипично — в основном это туристы и командировочные.
Несколько тысяч микросервисов-чекеров на корпоративном хранилище постоянно следят за потоком передаваемой и обрабатываемой информации с целью идентификации выбросов, выходящих за пределы статистических погрешностей, или непопадания в «маску» (например, номера телефонов, состоящие меньше чем из 7 цифр). Оповещение об аномалии автоматически отправляется оператору.
- В чем заключается стратегия работы с данными?
Ключевая задача, стоящая передо мной и моим подразделением, — предоставлять бизнесу корректные данные, на основании которых можно сделать выводы, трансформирующиеся в наши новые продукты.
- И каковы критерии уверенности в данных?
Создаваемые в компании дата-сеты сильно связаны между собой: любая цифра может быть верифицирована. Большой объем нашей работы связан с кросс-валидацией тех показателей, которыми мы оперируем. Например, в справочнике клиентов и системе биллинга есть общие данные. Когда значения номера одного и того же абонента не совпадают, мы либо не можем предоставить ему услуги, либо не можем получить за них оплату. Если такая проблема возникает, надо выявить и решить ее максимально быстро, чтобы обеспечить непрерывность бизнеса и предоставления сервиса.
- Что собой представляет инфраструктура для работы с данными? Какие платформы вы используете?
Основной стек, на котором мы работаем, — это Oracle, а также используем большое количество решений open source. Продукты, предоставляющие возможность работы с данными, появляются часто. Мы тестируем их, чтобы понять, дают ли они нам какие-то новые возможности. В большинстве случаев дают. Например, я счастлив, что компания «Яндекс» открыла для разработчиков свою СУБД ClickHouse. Мы очень активно используем Tarantool от Mail.ru Group. В некоторых задачах работают библиотеки, начиная от Cassandra и заканчивая Hadoop, который есть у всех. Обеспечивать связность всех этих систем — отдельная задача, которой занимается моя команда.
Еще несколько лет назад подход был другим: давайте соберем в одно хранилище все что можно, начиная от телеметрии и заканчивая бухгалтерской информацией, а потом подумаем, что с этим делать. Нет. Должны быть корректные, верифицированные данные, которые приносят пользу бизнесу.
У нас есть озеро данных — хранилище всей имеющейся в компании неструктурированной информации. Но есть и хранилище структурированной информации — ее вычленили инженеры, архитекторы, специалисты по внедрению бизнес-аналитики. Определив, как она должна храниться, чтобы приносить пользу бизнесу, они сделали информационную витрину для такого хранилища. По большому счету, это огромный файл Excel с агрегированными и структурированными данными, который является «источником правды» для бизнеса. Параллельная задача — поиск с помощью машинного обучения еще чего-то, что мы до сих пор не обнаружили в массе неразобранных данных, не посчитали и из чего не извлекли пользу. Основная цель — работа со структурированными данными.
- Есть мнение, что собрать корректные данные не получится, если сразу не поставить задачу, для решения которой они собираются. Вы согласны с этим?
Не совсем. Бизнес всегда смотрит вперед, мы должны предсказывать, что может ему понадобиться.
Наше хранилище структурированной информации занимает почти 700 терабайт — это данные, про которые мы все знаем. К нему есть наборы витрин, комбинируя которые мы можем предоставлять бизнесу необходимую информацию.
- Развиваете ли вы самообслуживание в аналитике?
Переход к селф-аналитике является одной из стратегических целей Управления данными. Мы активно движемся в этом направлении, понимая, что это снимет с нас часть сверхнагрузки по удовлетворению запросов бизнеса. Но не стоит забывать о том, что для такого развития требуются определенные знания. В прошлом году моя команда обучила более тысячи человек работе с BI-системами, применению логики больших данных и использованию возможностей, предоставляемых внутренним пользователям при работе с большими данными. В «МегаАкадемии» курсы по Big Data, которые ведут мои ребята, — одни из самых востребованных. Мы прикладываем много сил, чтобы поддерживать их актуальность. Это самый первый большой шаг, сделанный в направлении селф-аналитики.
Также у нас есть набор общеобразовательных курсов, на которых мы даем сначала начальное, а затем и углубленное представление об имеющемся стандартном инструментарии. Для селф-аналитики это Tableau — инструмент визуализации данных, принадлежащий Salesforce. Для тех, кто работает на стеке Microsoft и для кого основным источником данных служит Excel, инструмент для самостоятельного анализа очень простой — Microsoft Power BI. Из продуктивных решений, которые выдерживают одномоментную нагрузку при подключении тысячи пользователей, мы используем Oracle BI, для части задач — SAP Business Objects. Работе с ними мы учим всех желающих.
Кроме того, нам поступают запросы на обучение конкретным функциям — например, от руководителей региональных офисов. Тогда один из моих сотрудников за несколько часов разбирает решение конкретных задач.
В целом к организации внутреннего обучения привлекается не менее трети сотрудников команды, насчитывающей 130 человек.
- Какое место проект «МегаФон.Поиск» занимает в трансформации компании?
Сегодня телеком сфокусирован на предоставлении сервисов, но со временем он должен стать шире, чем ИТ. Очень хочу, чтобы таких проектов, как «МегаФон.Поиск», стало больше, потому что ценность, которую мы приносим в мир, — не только в сервисах и возможностях, но и в пользе для общества.
- Как планируете развивать проект?
Мы работаем над расширением покрытия. В настоящее время «МегаФон.Поиск» доступен в 40 регионах из тех 48, где работает «Лиза Алерт». Постепенно мы наращиваем охват и в течение примерно трех месяцев планируем закрыть все 48 регионов. Это требует от нас сегментации абонентской базы, оценки ее постоянства, адаптации для каждого региона механизма сверки.
Пропавших людей ищет не только «Лиза Алерт», и я искренне надеюсь на то, что в этом году мы расширим сотрудничество с Центром поиска пропавших людей. В течение 2020 года мы рассчитываем обеспечить федеральное покрытие. Кроме того, мы считаем этот проект важным и интересным для государства и цифровизации.
- Возможно ли в перспективе сотрудничество с другими операторами для развития этого проекта?
Мы не можем объединить базы, но можем объединить усилия и сделать, например, универсальную витрину для доступа координаторов. Это не очень сложно, и мы готовы сотрудничать в этом с другими операторами.
Вечером 12 декабря 2019 года в поисково-спасательный отряд «Лиза Алерт» поступила заявка: дедушка ушел на прогулку и пропал. Николай Михайлович уже несколько лет страдает проблемами с памятью, он не всегда осознает время и место, в котором находится, но при этом очень бодр и любит гулять. Начался сбор информации, опрос родных, общение с полицией, печать карт и ориентировок. Но застать очевидцев в селе в столь позднее время почти нереально, оставалось надеяться на рассылку абонентам «МегаФона». В этот раз рассылка позволила поисковикам получить два важных звонка! Один — от свидетеля, который видел дедушку, общался с ним, смог подробно его описать, а также пояснить, куда тот пошел. Второй звонок был от человека, который нашел деда во дворе своего собственного дома в 7 километрах от места пропажи. Дедушка не смог объяснить, как он попал в это место. Нашедший Николая Михайловича человек отвел его в свой дом, обогрел, накормил и вызвал полицию. В этот момент его супруга получила на телефон сообщение о пропавшем, в котором они узнали своего «гостя». Звонок на «горячую линию» — и поиск успешно завершен!
|