Центр прикладного анализа больших данных: цифровое счастье и реальные проблемы

Вячеслав Гойко, директор Центра прикладного анализа больших данных Национального исследовательского Томского государственного университета, — о возможностях оценки качества жизни граждан на основе анализа данных социальных сетей.

Счастье людей зависит не только от их дохода — теперь это подтверждено математикой. Чтобы повышать качество жизни в том или ином регионе, приходится глубоко вникать в проблемы его жителей, и лучшей возможностью для этого является «жалобная книга», которую представляют собой нынешние социальные сети.

Вячеслав Гойко, директор Центра прикладного анализа больших данных Национального исследовательского Томского государственного университета и номинант на премию CDO Award 2021, рассказал о реализации проекта «Оценка качества жизни населения регионов Российской Федерации по данным социальных медиа». Выводы о благополучии людей, полученные с помощью анализа их поведения в соцсетях, способны стать важным дополнением к традиционным статистическим методам и помочь в выработке управленческих решений, направленных на улучшение жизни граждан.

- Попытка измерения благополучия населения — важная задача. В некоторых странах есть даже министры по счастью. Как родилась идея использовать поведение людей в соцсетях для определения их качества жизни?

Тема благополучия и качества жизни в последнее время стала весьма актуальной. В научных кругах появилась концепция следующей, цифровой эпохи Индустрии 4.0. Ее жители — наши дети, которые родились с гаджетом в руках и многое воспринимают несколько иначе. Например, они хорошо принимают шеринг-экономику и восприимчивы к экологическим вопросам. Поэтому новая концепция направлена в первую очередь на повышение качества жизни людей и изучение новых аспектов их благополучия.

С другой стороны, все существующие методики основаны на субъективных оценках — то есть базируются на различных опросах. Объективные оценки строятся в основном лишь на статистических данных, мы же предлагаем использовать в качестве источника информации открытые данные.

Тематика родилась не случайно: наш Центр прикладного анализа больших данных, созданный в 2016 году, до недавнего времени назывался Лабораторией наук о больших данных и проблемах общества. Этими проблемами общества мы и занимались, поэтому задача измерения качества жизни населения буквально витала в воздухе. Мы начали работать с соцсетями, увидели, какие возможности дает анализ открытых данных из них, и в 2018 году возникла идея попробовать измерить «цифровое качество жизни».

Оказалось, что соцсети по своей сути представляют большую жалобную книгу. Соотношение негативных и позитивных сообщений составляет 7:1, то есть 85% контента имеет негативную тональность! Люди любят жаловаться, причем развитие интернета дало возможность высказываться всем. И в таких сообщениях часто содержится описание насущных проблем с привязкой к местоположению граждан, их социально-демографическому статусу, образованию. В отличие от опросов, где число респондентов исчисляется тысячами, здесь охват достигает десятков миллионов людей — получается довольно большая выборка.

Конечно, есть и ограничения. В первую очередь пользователи соцсетей не совсем точно отражают демографический срез населения России — там очень мало людей пенсионного и предпенсионного возраста. Однако средний возраст пользователя сети «ВКонтакте» уже перевалил за 30 лет.

- Почему только отечественные соцсети? Нет ли ощущения, что из-за этого теряется что-то важное?

Наша страна уникальна тем, что у нас мировые ИТ-гиганты, такие как Google или Facebook, встречают активное сопротивление местных игроков, причем весьма успешное. Более того, сеть «ВКонтакте» предоставляет открытые API — интерфейсы для получения данных. С точки зрения исследователя, это отличная возможность. Facebook же в 2015 году свои данные закрыл.

- Какие данные используются и почему именно они?

В первую очередь мы работаем с такой сущностью, как сообщество людей. В последнее время у многих пользователей снизилась активность на собственной странице — люди перешли в мессенджеры. Но в сообществах, особенно региональных, они продолжают обсуждать свои проблемы. По подпискам человека можно с высокой долей вероятности определить его регион, а чуть больше четверти пользователей и сами указывают свое место проживания. Весь контент мы обезличиваем, но оцениваем суть написанного и соотносим высказывание с субъектом РФ.

В итоге у нас появляется относительно объективная картина проблем и позитивных событий, присутствующих в обществе каждого из регионов. Даже несбалансированность негатива и позитива играет нам на руку, потому что динамика проблем отображает изменение качества жизни. Например, в известной пирамиде Маслоу потребность в безопасности находится внизу, являясь базовой. Поэтому люди сначала жалуются на безопасность, а уже потом — на отсутствие кинотеатров и других мест культурного проведения досуга. Это тоже может показывать прогресс или регресс качества жизни.

В масштабах региона получается неплохой слепок. Например, в Томской области проживают около 1 млн человек, свыше 300 тыс. из них пользуются сетью «ВКонтакте». По этим данным вполне возможно оценивать и состояние людей, и его динамику.

- Когда был начат проект? Какие этапы включал и каких реальных результатов с тех пор удалось добиться?

В 2018 году стартовал пилотный проект. В его ходе мы научились в полуавтоматическом режиме искать региональные сообщества, выгрузили из них весь контент за год. Даже с учетом относительно небольшой выборки это были миллионы сообщений, вручную их анализировать невозможно.

Далее мы перешли к следующему этапу — формированию ручной обучающей выборки для создания алгоритма, сортирующего сообщения по категориям. В пилотном проекте были определены 19 категорий (ЖКХ, образование, медицина и т. п.) и 3 сферы: социальная, экономическая и политическая. Наш подход оказался правильным: разметив большое количество сообщений, мы добились того, что алгоритм начал классифицировать сообщения с высокой точностью. Более того, он достаточно точно определял тональность сообщения, и уже с помощью этого удавалось делать определенные выводы. В следующем, 2019 году в наших данных появилась динамика, а кроме того, мы расширили классификацию сообщений. Результаты ожидались интересные, и нам удалось получить грант на проведение этого исследования.

Уже в 2020 году к нашей работе проявили интерес органы местного управления — администрации Томской области, Якутии, Архангельской области. Нам удалось связаться с Центром перспективных управленческих решений (ЦПУР), который нас поддержал в плане улучшения методологии. Причина их внимания очевидна: проект может с высокой точностью показать проблемы, актуальные для определенных регионов. Это может стать дополнительным инструментом мониторинга изменений. Наконец, мы начали сотрудничать с ВЦИОМ на тему сопоставления наших онлайн-данных с их опросами.

Сейчас наша задача — доработать методологию и нивелировать перекос в сторону молодежи. Очевидно, что мы пока достаточно плохо видим проблемы старшего поколения. Кроме того, нас интересует еще один важный параметр — субъективное психологическое благополучие, которое является показателем психологического состояния человека, а не только его отношения к внешнему миру. Есть много примеров того, что человек счастлив даже при плохом состоянии окружающего мира, и наоборот.

- Какие математические методы использовались в ходе исследования?

Классические методы машинного обучения. В ходе проекта мы использовали мощности суперкомпьютера СКИФ Cyberia, которым обладает ТГУ. К сожалению, в таких объемах ни хранить, ни собирать данные на обычных компьютерах невозможно. Обучение нейросетей также будет происходить очень медленно.

- Очевидно, в этом проекте речь идет не только о математике, но и о других дисциплинах — психологии, социологии и т. п. Какие специалисты и откуда привлекались, в чем заключалась их роль?

Проект поддержан Университетским консорциумом исследователей больших данных, в который входят 30 вузов. Ядром команды выступают специалисты из ТГУ. Научным руководителем проекта стал Евгений Щекотин из НГУЭУ, занимающийся вопросами субъективного благополучия. Кроме того, активно помогали коллеги из САФУ и СВФУ. Также мы работаем с компаниями «Форексис», которая помогает с машинным обучением, и Megaputer Intelligence, у которой есть хороший инструмент текстовой аналитики PolyAnalyst.

Наш коллектив объединяет компьютерщиков, социологов, психологов, лингвистов, экономистов. В нашей работе очень важна роль психологов. Проведя полноценное традиционное тестирование нескольких тысяч человек и затем проанализировав их цифровой след в социальных сетях, можно получить неплохую модель, способную по цифровому следу определить психологические характеристики человека.

Например, отдельное и важное направление нашего исследования — измерение качества жизни людей в Арктике. Это крайне важный для России регион с геополитической точки зрения, существует специальная стратегия его развития. Но пока непонятно, как повысить там качество жизни: несмотря на высокие зарплаты, люди уезжают из-за сурового климата и слабой инфраструктуры… Я бывал зимой в Архангельске. Световой день длительностью четыре часа производит гнетущее впечатление даже на сибиряка, провоцируя депрессию.

- Иногда решение сложной задачи приходит из совершенно другой области. Может ли оказаться, что мониторинг настроений в соцсетях заменяет официальную статистику или превосходит ее?

У нас несколько разные задачи: у статистики — количественные измерения, у нас — субъективные. Хотя они и идут бок о бок, для нас главными единицами измерения являются настроение человека и социума региона в целом. Поэтому статистика скорее дополняет наши методы, а вот с точки зрения ЦПУР, появление еще одного показателя может обогатить имеющиеся государственные данные. Таким образом, задача решается с разных сторон, и мы фокусируемся на извлечении из количественных данных качественных результатов: какие проблемы существуют, откуда они появляются и для кого важны.

- Что в ходе этого проекта было самым сложным?

На этом проекте мы набили много шишек. Это не умерило наше энтузиазм, но научились мы многому. Мы и раньше работали с алгоритмами машинного обучения, и нам приходилось классифицировать данные. Но размечать в таком объеме неструктурированные тексты, и в первую очередь жалобы, оказалось крайне сложно с концептуальной и содержательной точек зрения. Как отличить тематику одного сообщения от другого, если они описывают одно и то же событие? Кроме того, требуется с большой точностью разметить сообщения по тональности.

Подготовив разметчиков (целый коллектив, который размечал специально подготовленную выборку сообщений), мы начали работу — и результат нас расстроил. В ходе кросс-валидации (когда несколько человек независимо друг от друга размечают одни и те же сообщения) выяснилось, что точность работы крайне низка. Люди одно и то же сообщение зачастую трактуют совершенно по-разному, на таких данных обучать алгоритм невозможно. Пришлось потратить гигантские усилия, чтобы довести качество ручной разметки до приемлемого уровня. Как известно, самое сложное в обучении искусственного интеллекта — чтобы перед этим хорошо отработал интеллект естественный.

- Были ли в ходе проекта открытия, удивившие вас?

Оказалось, что регионы-соседи могут кардинально отличаться по восприятию качества жизни. Казалось бы, между людьми всего 200 км, но у них совершенно различное восприятие окружающего мира. Наша страна оказалась огромной не только территориально: проблемы сильно разнятся, причем нет универсального пути их решения. Скажем, если повсеместно отремонтировать дороги, люди счастливыми не станут. Чтобы принимать решения, нужно точно, до мельчайших подробностей знать ситуацию на местах.

Кроме того, это был первый проект, в котором мы работали бок о бок с гуманитариями. Первые полгода мы учились разговаривать на одном языке. Я по базовому образованию инженер-физик, и долгое время жил только в техническом мире. Реализация этого проекта заставила меня задуматься о гуманитарных проблемах. Честно скажу, я всегда считал, что главным критерием качества жизни является доход, а значит, в более богатых регионах качество жизни должно быть выше. Оказалось, что это совсем не так: он имеет значение лишь до определенного момента. То есть если всех людей сделать богатыми, счастливыми они не станут — как и в случае с хорошими дорогами. Поняв это, я слегка переосмыслил свои планы на эту жизнь.

- Что показывает практика? Какие действия в соцсетях наиболее показательны для оценки качества жизни?

С точки зрения нашей методологии показательнее всего комментарии. Ведь человек не просто «лайкнул» сообщение, но и потратил время на написание текста. Кроме того, если тема «горячая» и комментариев много, человек тратит много времени и на чтение дискуссии. Возникает гипотеза, что проблема действительно зацепила человека. Помимо содержания поста, мы используем лайки и репосты, чтобы оценить важность информации.

Но наша модель пока не учитывает распространение информации, а с этой точки зрения главный инструмент — репост. Более серьезный учет этого фактора остается в планах на будущее.

- Иногда человек ведет себя в Сети иначе — не как в реальной жизни. Является ли это проблемой для используемых методов анализа? И если да, то как она решается?

Да, часто люди в Сети себя ведут несколько по-другому, и это проблема. Если главная роль соцсети — жалобная книга, то вторая по значимости — место, где можно похвастаться чем-либо, и поэтому искажения неизбежны. Но нашими главными объектами наблюдения являются не люди или их посты, а обсуждения — то есть действия в сообществе, и там влияние индивидуумов снижается.

Но зато мы в явном виде столкнулись с тем, что позитивные новости во многих сферах жизни социально не одобряются. Если у людей все хорошо и они об этом рассказывают, то их мгновенно причисляют к «кремлеботам» и это сильно влияет на дальнейшие обсуждения. Конечно, есть и настоящие бот-аккаунты, привносящие определенную активность, и их приходится фильтровать.

Сейчас мы проводим исследование, чтобы понять, как и насколько сильно психологические черты человека проявляются в онлайне. Для этого нам нужны результаты традиционных офлайн-исследований, чтобы сверить их со своими наблюдениями.

- Очевидно, сам по себе анализ мало что дает, помимо определения общей картины. Гораздо важнее выдаваемые рекомендации к действию для изменения ситуации. Делаются ли уже попытки провести практические мероприятия на основе выведенных индексов?

До конца 2021 года при поддержке ЦПУР мы продолжим улучшать методологию, и одним из результатов станет разработка определенных рекомендаций по изменению ситуации в том или ином регионе. Именно для этого нам необходимо состыковать свои результаты с офлайн-исследованиями.

Сила нашего метода заключается в том, что мы можем спуститься до конкретного населенного пункта (разумеется, если его жители активно пользуются социальными сетями) и делать аналитику только по нему. Например, известна проблема оттока населения из сельской местности. Однако в период пандемии только из Москвы за город выехало 1–1,5 млн человек. Это отличная возможность замотивировать часть из них остаться в деревне — надо правильно спланировать соответствующие мероприятия. Для этого можно использовать нашу методологию: понять, чем люди недовольны; найти наиболее перспективный регион; оценить цифровой портрет человека, готового переехать жить за город, и определить число таких людей.

Мы сотрудничаем с администрациями Томской области и Якутии, пытаемся составлять для них первые практические рекомендации. Но следует быть очень осторожными: при использовании искусственного интеллекта неизбежно возникают этические вопросы. Все-таки качество жизни целого региона — весьма большая ответственность, поэтому мы стараемся делать эксперименты в малых масштабах, чтобы не навредить.

Кстати, у нас есть внутренний этический комитет. Мы исследователи, поэтому придерживаемся определенных правил. Во-первых, не используем персональную информацию, а ограничиваемся обезличенными данными. Во-вторых, стараемся перепроверять данные, прежде чем делать какие-либо выводы. Для уточнения выводов приглашаем представителей разных областей, в том числе органов власти, чтобы вместе выработать план действий. Наша цель — не распространять информацию о наличии проблем, а подготовить аналитику, которая поможет в принятии управленческих решений.

- Каким вы видите будущее этого проекта? Какое место он должен занять среди инициатив, направленных на социальную сферу?

Одним из главных результатов является проверка связи между онлайн- и офлайн-миром. С развитием технологий все больше людей будут проводить массу времени в Сети. Если мы научимся качественно анализировать онлайн-данные, которые порождаются цифровыми следами людей, то сможем персонифицировать разнообразные государственные блага. Мы будем понимать, где в условиях ограниченных ресурсов нужно строить детский сад, а где в первую очередь надо отремонтировать дорогу. Это даст возможность не только оценивать качество жизни, но и повышать его.

- Есть ли в этом риски?

Да, у нашего проекта есть несколько рисков, и главный из них — возможность мошенничества. Можно посадить специально обученных людей, которые будут генерировать контент, нужный заинтересованным лицам. Они будут сильно влиять на результаты анализа по какому-либо небольшому региону.

Скажем, у многих детей есть два аккаунта в соцсетях: один — «для родителей», а другой — для реальной жизни. Примерно то же самое может произойти и в нашем случае, и это опасно. Именно поэтому мы очень осторожно говорим об управленческих решениях на основе наших рекомендаций. И пытаемся перейти к качественным обезличенным показателям, чтобы свести к минимуму возможности фальсификации.

- Надо ли бояться своего цифрового следа?

Говоря о цифровой безопасности, многие впадают в истерику по поводу возможной слежки. Люди склонны к паранойе, всем нравится идея, что они для кого-то важны. Но мало кто задумывается, что все наши письма читает алгоритм антиспама. Многих этот факт приведет в бешенство, а лично я готов с этим мириться, лишь бы получать меньше спама. Можно принять некоторый уровень надзора ради большего комфорта.

Сейчас многие платформы дают возможность выбора — например, закрыть свой профиль. В первый месяц после появления такой возможности некоторые пользователи закрывали свою стену, но через некоторое время произошел откат: люди более трезво взглянули на потребность ограничения доступа к своей информации.

С точки зрения цифровой безопасности лучшее место — тайга, где нет связи. Но если мы живем в социуме, то следует развивать цифровую гигиену. Соцсети можно сравнить с краном, из которого течет грязная вода, и эту воду надо фильтровать, причем этим должны заниматься сами площадки. И надо сказать, что многие в этом преуспевают.

Один мой знакомый говорит: «Я всегда веду себя так, будто за мной наблюдают». Это один из наиболее разумных вариантов.