Университетский консорциум исследователей больших данных – ассоциация, объединяющая российские университеты, которые ведут фундаментальные и прикладные проекты в области аналитики больших данных. Одно из направлений деятельности консорциума – серия школ и образовательных интенсивов по обучению работе с данными, получившая название DataDiving.
О развитии университетских инициатив в области прикладного анализа больших данных и назначении проекта DataDiving рассказал Михаил Мягков, председатель правления ассоциации «Университетский консорциум исследователей больших данных» и номинант премии CDO Award 2021.
— Как появилась идея школ DataDiving?
Первую экспериментальную лабораторию по прикладному анализу больших данных мы основали на базе Томского государственного университета пять лет назад. Уже тогда было понятно, что количество данных, накапливаемых в мире, растет по экспоненте. А сейчас можно сказать, что вокруг нас – океан данных, который мы бороздим без карт, без подходящих кораблей и, главное, без четкого понимания целей и задач своего путешествия.
Серьезная проблема, и у нас, и на Западе – это колоссальный разрыв между гуманитарными и математическими научными областями в плане работы с данными. Очень мало проектов, в которых алгоритмы разрабатываются в кооперации социологов, политологов, психологов, математиков и предназначаются для решения конкретных задач общества и бизнеса. Это наследие общепринятого подхода к развитию науки, основанного на формировании обособленных дисциплинарных «кланов».
Но когда перед обществом встают серьезные вызовы, как это обстоит сейчас с данными, то возникает острая необходимость не просто в междисциплинарном сотрудничестве, а в таком подходе к организации проектов, когда для решения конкретной задачи собираются вместе все необходимые компетенции из самых разных областей.
Идея реализации такого подхода, который я называю «постдисциплинарным», лежала в основе организации Университетского консорциума исследователей больших данных. Решение подобных задач силами одних университетов было бы невозможно, поэтому ключевой составляющей нашего консорциума являются индустриальные партнеры. Консорциум был основан при активной поддержке компании «Крибрум», впоследствии к нам присоединились Megaputer Intelligence, Forecsys и другие. Мы создавали инфраструктуру для решения конкретных проблем, а не для абстрактных междисциплинарных исследований. Например, как данные помогут приемной комиссии привлечь более качественных абитуриентов? Как снизить отток квалифицированных кадров и удержать их в регионе? Как на базе анализа цифрового следа в социальных сетях увеличить уровень благотворительной активности? Или как на ранних стадиях распознать экстремизм и радикальные течения?
Основной целью консорциума является наполнение университетов командами (подчеркну это слово), способными решать конкретные задачи с помощью окружающего нас океана данных. Потому и родилась идея такого названия для образовательных инициатив – DataDiving. Мы «погружаем» людей в океан данных, чтобы они смогли найти и поднять на поверхность скрытые в нем «жемчужины».
— Наверняка у многих университетов – членов консорциума уже есть свои программы в области работы с данными. Этого недостаточно?
Да, у многих вузов есть такие программы. Но наша задача не в обучении конкретного человека по конкретному курсу. Посредством DataDiving мы создаем инфраструктуру единомышленников для совместной работы над актуальными проблемами.
Приведу пример. В начале пандемии у Министерства образования и науки РФ появился срочный запрос на выявление проблем при переводе образовательной среды на дистанционный формат. Для обработки всех тех данных, которые позволили бы дать релевантный ответ на эти вопросы, потребовалась бы крупная организация, целиком задействованная на таком проекте. Мы же в рамках консорциума распределили эти данные между 10 университетскими командами, которые одновременно включились в работу. Это позволило предоставлять ведомству актуальную картину происходящего практически в режиме реального времени. В университетской среде нет другой организации, способной осуществлять подобные проекты с такой скоростью и гибкостью.
— Как устроена школа DataDiving?
Мы создали своего рода конструктор для формирования школ прикладного анализа данных, из которого, как из кубиков LEGO, можно складывать программы, различающиеся по количеству учебных часов, тематическому фокусу, аудитории и т. д.
Так, одна из школ, прошедшая в декабре, состояла из трех основных частей. Первая – недельный пре-модуль в онлайне, на котором слушатели проходили теоретическую подготовку по основам анализа данных. Задача этой части программы – дать представление о том, как соотносятся между собой реальная жизнь, данные и модели, и показать, какие инструменты используются в анализе больших данных. Здесь важно сотрудничество с нашими партнерами из индустрии, которые безвозмездно предоставляют свои программные решения (например, платформу «Крибрум» для сбора данных из социальных медиа или систему Polyanalyst для текстовой аналитики) и помогают учить студентов.
Но самое интересное происходило в рамках второй части – очной сессии, на которой была дана путевка в жизнь конкретным проектам. В течение нескольких дней шла кропотливая работа с участниками школы, выбирались темы проектов, формировались команды. Здесь требовались не только технические и методические навыки – нужно быть еще немного психологом, а в чем-то и «свахой», потому что конечный успех школы зависит от вовлеченности людей, от их заинтересованности в результате проекта, способности работать в команде.
Что касается тем проектов, то их можем предлагать не только мы, но и сами участники. Иногда возникают совершенно неожиданные для нас темы. Например, недавно разрабатывалась задача использования анализа данных для предотвращения супружеского насилия. Выяснилось, что в обществе есть большая потребность в таких инструментах.
Финальная часть – сопровождение проектов. Мы помогаем найти правильных людей и собрать эффективные команды, чтобы инициированные в рамках школы проекты имели хорошие шансы на успешное развитие.
— Кто учится и кто учит в школах DataDiving?
Так как наше общество уже погружено в океан данных, то любой человек, которому в его работе может понадобиться анализ данных – наш потенциальный студент. Для примера, это могут быть социологи, технические специалисты, политологи, лингвисты, специалисты из некоммерческих благотворительных организаций или государственного управления.
Преподавателями выступают представители университетов – участников консорциума, а также эксперты со стороны индустриальных партнеров. Также в зависимости от задач программы мы можем приглашать наиболее значимых спикеров из бизнеса или научного сообщества. Главное – обеспечить проектную синергию, выстроить мост между академическими знаниями и реальной жизнью.
Обучение анализу больших данных в наших школах прошли уже более 600 человек из 15 регионов России. По итогам прошедших занятий уже реализовано более 10 проектов .
— Каким образом эти проекты учитывают потребности общества и бизнеса в анализе данных?
Инфраструктура, которую мы создаем на базе университетов, является инструментом для взаимодействия и с обществом, и с бизнесом. Наше активное участие в программе подготовки CDO (директоров по данным) – хорошая тому иллюстрация. Когда возникла задача обучить большое количество чиновников и представителей коммерческих структур проектной деятельности по работе с данными, выяснилось, что консорциум это может реализовать быстро и эффективно.
А без совместных проектов с бизнесом консорциум вообще был бы нежизнеспособен. Эффективность того, что мы делаем, должна измеряться тем, насколько мы активно и продуктивно сотрудничаем со средой за пределами университетов.
В качестве примера – мы участвуем в совместном проекте с компанией, которая экспортирует в Россию экзотические фрукты. Компетенции университетских центров прикладного анализа данных задействованы в решении задачи прогнозирования и контроля состояния товара на момент его поступления на полки магазинов на основе больших объемов данных об условиях сбора и транспортировки фруктов.
— У консорциума широкая география. Насколько ваши школы и проекты привязаны к региональной специфике, какой потенциал тиражирования этих инициатив?
Сегодня в консорциум входит около 30 университетов из разных городов и регионов: Томска, Архангельска, Якутска, Тольятти, Москвы (МГУ им. Ломоносова, НИУ ВШЭ), Чечни, Крыма и пр. Наша философия подразумевает активное участие вуза – члена консорциума в реализуемых инициативах и проектах. Томский госуниверситет выступает в роли координатора работ.
Широта охвата проекта зависит от его задач. Есть и региональные, но большинство имеют федеральный масштаб. Например, сейчас мы совместно с Центром перспективных управленческих решений (ЦПУР) развиваем инициированный в Томске проект по составлению динамического рейтинга качества жизни в регионах на основе различных официальных данных и цифрового следа человека.
— Какие перспективы у DataDiving?
У нас не может быть других перспектив, кроме как создавать все новые и новые инструменты для работы с океаном данных, которые позволят отвечать на различные вызовы и повысить качество жизни общества. Наша инициатива развивается очень успешно, создаются новые программы, многому учимся сами по ходу дела, поскольку здесь нет опыта, на который можно было бы опереться. Наш консорциум – уникальная организация не только для России, но и в мире. Мы научились быстро создавать новые образовательные программы под конкретные нужды, учимся все лучше координировать проектную деятельность, чтобы она давала успешные результаты. Мы рассчитываем стать флагманским кораблем флотилии в океане данных, при этом готовы продуктивно сотрудничать со всеми, кому это важно. У нас открытые данные, которыми мы безвозмездно делимся со всеми, кто в этом реально заинтересован.
— Что для вас самое сложное, а что – самое интересное в образовательных инициативах консорциума?
Я почти четверть века работаю в университетской среде в России и на Западе, и глубоко убежден, что развитие человеческого капитала – основная миссия университета. В этом я вижу и свою главную цель. Самое сложное в наших инициативах – найти и замотивировать людей, которые не просто отсидят учебные часы, а сделают запущенные в рамках школы проекты частью своей профессиональной жизни. Инициативных, активных, увлеченных людей пока не хватает. В наших школах мы работаем индивидуально с каждым, чтобы создавать продуктивные проектные команды. Это и самое трудное, и самое интересное.