Как индустрии больших данных выжить в нынешних условиях? Ответу на этот вопрос была посвящена дискуссия «Что делать, чтобы индустрия данных выжила», состоявшаяся в рамках форума BIG DATA&AI 2022, проведенного издательством «Открытые системы». (Также о форуме см. «BIG DATA&AI 2022: лучше вместе», «Компьютерный мир», 27 апреля 2022.) Название дискуссии подразумевало, что от отрасли требуется быстрая реакция на произошедшие экономические и политические перемены. По мнению экспертов, эти изменения способны наконец ускорить действия регулятора, демонстрирующего сверхосторожность, а временами — даже медлительность.
Как подчеркнула Анна Серебряникова, президент Ассоциации больших данных, в 2018 году, когда был проведен первоначальный анализ состояния рынка, наши банки и телеком-операторы являлись одними из лучших в мире по применению инструментов работы с данными и искусственного интеллекта. Однако имевшуюся динамику сохранить не удалось, и объем рынка, ожидавшийся к 2021 году, не был достигнут из-за проблем регулирования.
«То, в чем нуждался рынок в 2018 году, остается актуальным и сейчас. Компании хотят получить возможность рассматривать данные как товар и включать их в оборот. Они желают развиваться и работать не в серой зоне, как это происходит сейчас, а полностью легально», — констатировала Серебряникова. Важно установить прозрачную систему контроля со стороны государства и исключить риски борьбы с неизвестным — ведь, как известно, психологически проще все непонятное запретить, нежели разбираться в деталях. Возможно, именно поэтому позиция регулятора по всем направлениям была крайне осторожной.
Анна Серебряникова: «Инновации нужно стимулировать, иначе мы не достигнем запланированных цифр. За период с 2018-го по 2022 год рынок уже недополучил 200 млрд руб. Если ничего не изменится, потери только усилятся»
Однако в текущей ситуации российским компаниям крайне важно получить преимущества, зафиксированные в регуляторных требованиях, что позволит ускоренно развивать продукты на основе больших данных. Государство тоже это понимает, однако пока все инициативы реализуются крайне тяжело. Хотелось бы призвать регуляторов и тех, кто готовит для них аналитику, воспользоваться ситуацией и обеспечить российским компаниям возможность создавать уникальные продукты. За основу можно взять опыт Китая, весьма либерально относящегося к обороту данных.
«Инновации нужно стимулировать, иначе мы не достигнем запланированных цифр. За период с 2018-го по 2022 год рынок уже недополучил 200 млрд руб. Если ничего не изменится, потери только увеличатся», — выразила опасение Серебряникова.
Айсалу Бадягина, заместитель директора департамента обеспечения кибербезопасности Минцифры, признала, что инициативы действительно продвигаются очень тяжело. По ее словам, причины являются чисто технологическими: на сегодняшний день отсутствуют гарантированные методы обезличивания данных. Разумеется, для государства первична именно задача обеспечения безопасности персональных данных. Как отметила Бадягина, в Минцифры выработаны три направления, по которым сейчас ведется активная работа. Первое из них — предоставление доступа к данным для разработчиков на площадке Минцифры. Второе — возможность создания аккредитованных площадок, соответствующих требованиям законодательства (так называемых дата-посредников). И третье — более активное использование практики экспериментальных правовых режимов.
По словам Бориса Зингермана, генерального директора Ассоциации разработчиков и пользователей искусственного интеллекта в медицине, здравоохранению закон о персональных данных нанес гораздо больше вреда, чем пользы. Можно сказать, что сейчас медицинские организации зачастую не защищают данные, а защищаются от контролирующих органов, действуя «с запасом» и тем самым перекрывая все пути к интеграции и объединению данных и использованию их в научных целях.
Борис Зингерман: «Запрет на обогащение медицинских данных из других источников полностью убивает всю потенциальную пользу от их использования и становится огромным барьером на пути развития искусственного интеллекта в медицине»
Медицинские данные живут лишь внутри организаций здравоохранения, и как их оттуда достать, интегрировать и использовать, совершенно непонятно. Больше всего Зингермана беспокоит то, что даже из экспериментальных правовых режимов в период их подготовки было удалено все разумное содержание, которое там имелось. Ярким примером может служить запрет на обогащение медицинских данных из других источников, что полностью убивает всю потенциальную пользу от их использования и становится огромным барьером на пути развития искусственного интеллекта в медицине.
Важно донести до регуляторов, что пользы от применения данных больше, чем рисков. Вероятно, это можно доказать только на практике, и ситуация, в которой мы сейчас оказались, способна стать катализатором, сигналом к действию.
«Резко возросший интерес к большим данным внутри экосистемы ВТБ поражает: число запросов выросло в десятки раз. Поэтому для выживания рынок имеет хорошую почву: если есть интерес у бизнеса, можно выращивать хорошие продукты», — считает Максим Коновалихин, руководитель департамента анализа данных и моделирования ВТБ. Нынешний вызов предоставляет хорошие возможности: работа в области импортозамещения выходит на новый уровень. Действительно, если можно приобрести хорошее готовое решение, создавать собственное мало кто захочет. Однако появившиеся проблемы дали новый стимул, и у людей появился азарт: они хотят создавать решения, превосходящие зарубежные аналоги. Сейчас ВТБ ведет совместную работу с МФТИ по производству собственных программно-аппаратных комплексов.
Кроме того, по мнению Коновалихина, принцип «Лучше меньше, да лучше» становится базовым. Старый подход, при котором компании приобретали много «железа» и забивали его до отказа данными сомнительной ценности, очевидно, перестает работать. ВТБ много инвестирует в направление «умных» данных и предварительного анализа информации, позволяющего избавиться от мусора, не ухудшая качества создаваемых моделей.
«Последние годы были беззаботными с точки зрения возможностей для развития инфраструктуры, и мало кто думал об оптимизации», — согласился Борис Рабинович, CDO «Сбера». Осознавая свои масштабы, в «Сбере» занялись оптимизацией еще в 2020 году, сделав это частью стратегии. Одним из важных направлений стал переход с зарубежных систем на собственные решения в области хранения данных. Сейчас большая часть проектов завершена, по остальным сформированы планы перехода.
Говоря о прочих проблемах, Рабинович выделил очевидную тройку: люди, технологии, инфраструктура. При этом главная загвоздка, по его мнению, именно в кадрах: надо думать, как привлечь в отрасль данных молодых специалистов.
«В конце февраля мы провели анализ рынка больших данных, попытались выявить основные проблемы. Среди них — потенциальное сокращение объема кадров, снижение спроса на новые решения и ограничение доступа к вычислительным мощностям», — рассказал Сергей Наквасин, заместитель руководителя Аналитического центра при Правительстве РФ. Однако, как выяснилось, вычислительные ресурсы почти у всех есть с запасом, и это пока не является проблемой. Отток ИТ-кадров из России резко сократился, и статистика показывает, что он был крайне неоднородным. Главным образом он был связан с наличием большого количества зарубежных заказчиков. Среди специалистов, работающих с прорывными проектами, число уехавших не превысило 5%. А вот что касается спроса на ИТ-решения, то он действительно может несколько сократиться. Во многом именно из-за этого правительство объявило о беспрецедентных мерах по поддержке ИТ-отрасли. Главное, чтобы предоставляемые меры поддержки не разучили айтишников работать.
Руслан Ибрагимов: «Прежде чем что-то делать, надо понять, почему мы три года топтались на месте, почему так и не получилось ввести в оборот большие обезличенные данные»
«Прежде чем что-то делать, надо понять, почему мы три года топтались на месте, почему так и не получилось ввести в оборот большие обезличенные данные», — считает Руслан Ибрагимов, вице-президент по взаимодействию с органами государственной власти и связям с общественностью МТС. Суть цифровой экономики заключается именно в обороте больших данных, поэтому их и назвали новой нефтью. Однако, видимо, такую нефть пока еще не добыли.
По мнению Ибрагимова, регулятор слишком много внимания уделял техническим аспектам, что во многом было спровоцировано появлением GDPR. Однако, если проблему не получилось решить с использованием технического подхода (гарантированное обезличивание данных), надо думать о применении юридического подхода. Лишь запуск в оборот больших данных позволит сделать заметный рывок в направлении цифровой экономики.
«Экспериментальные правовые режимы, которые введены уже давно, должны помогать не только обсуждать проблемы, но и действительно что-то делать. Пора действовать, преодолевая психологические барьеры», — резюмировал Дмитрий Соболев, заместитель директора по направлению «Нормативное регулирование цифровой среды» АНО «Цифровая экономика». Сколько ни тестируй методики на синтетических данных, это имеет мало общего с практикой. ЭПР дают возможность протестировать подходы в «боевых условиях» и получить конкретные результаты. Тем более что у регулятора есть все инструменты для контроля и, при необходимости, прекращения эксперимента.