Вестник цифровой трансформации

Когнитивная система в «Газпром нефти»: эксперт для экспертов
Когнитивная система в «Газпром нефти»: эксперт для экспертов

«Мы хотим сильно продвинуться в создании знаний, которых не существовало до запроса», Евгений Кирьянов, руководитель проекта в НТЦ «Газпром нефти»


18:33 05.03.2019 (обновлено: 14:42 21.03.2019)  |  Ирина Шеян | 8238 просмотров



О том, что дает компании «умный поиск», рассказал руководитель проекта в Научно-техническом центре «Газпром нефти» Евгений Кирьянов, номинант на премию CDO Award 2019.

Объемы информации, необходимой для принятия решений, непрерывно растут. Но при этом нельзя допустить, чтобы на поиск необходимой пользователю информации уходило много времени. Информационные технологии, используемые в Научно-техническом центре «Газпром нефти» (НТЦ), позволяют создавать новые инструменты анализа и быстро находить нужные данные.

В НТЦ разрабатывают эффективные технологии добычи нефти на основе самых современных научных исследований. Еще одно важное направление деятельности компании, которым занимаются сотрудники Центра управления бурением «ГеоНавигатор» в Санкт-Петербурге — сопровождение высокотехнологичных скважин, расположенных не только в России, но и за рубежом.

В прошлом году здесь реализовали проект «Система когнитивного поиска», который способен поднять на качественно новый уровень работу сотрудников всей компании. О том, что дает компании «умный поиск», рассказал руководитель проекта в Научно-техническом центре «Газпром нефти» Евгений Кирьянов, номинант на премию CDO Award 2019.

- В чем суть задачи, которую решает этот проект?

Для нас, как и для любой наукоемкой компании, крайне важны исследования, связанные с решением повседневных бизнес-задач и преодолением технологических вызовов. Наши сотрудники постоянно нацелены на поиск новых решений, подходов и знаний. Чтобы осилить такие задачи, надо обращаться как к внешнему отраслевому опыту, так и к внутреннему опыту, накопленному сотрудниками компании.

 

 

27 марта — форум BIG DATA 2019

Центральное событие года для общения с экспертами индустрии больших данных и интеллектуальной аналитики!

 

Проанализировав имеющиеся базы данных и источники информации, мы увидели следующее. Во-первых, неизвестно, в какой из множества систем находятся искомые знания и ответы на вопросы. Во-вторых, сотруднику тяжело быстро найти информацию, требующуюся ему немедленно. Когда архивы измеряются сотнями терабайт и включают сотни тысяч документов, пользоваться стандартными локальными инструментами поиска в приложениях затруднительно.

Сначала мы попробовали построить поисковую систему на основе технологии Microsoft Share Point, но очень быстро выяснилось, что даже с ручным управлением, составлением словарей синонимов и настройкой фильтров стандартный поиск не справляется.

Поэтому мы решили создать собственную поисково-аналитическую систему, которая помогла бы сотрудникам максимально быстро находить ответы на свои вопросы и повысила бы эффективность экспертного сопровождения. Первая задача, которую мы перед собой поставили, — создание единой платформы для преодоления разрозненности источников данных, вторая — когнитивность поиска.

- Почему понадобилась именно когнитивная система?

Если документов немного, мы можем использовать поиск на базе совпадения слов, но когда число документов близится к миллиону, система выдает слишком много результатов. При этом в поисковой выдаче нет ранжирования по тому параметру, который важен сотруднику именно сейчас.

Система когнитивного поиска работает по-другому. Она сравнивает не буквы в словах, а смысловые значения слов, предложений и целых текстов, учитывает морфологию слов в запросе, понимает сокращения и специализированные термины. И например, по запросу «легкие фракции нефти» она выдаст результаты со словами «бензин» и «керосин». Даже если мы по-разному пишем одни и те же термины, система очень быстро сама обучается и понимает, что написанное по-русски и по-английски — это одно и то же. Система также работает с функциональными онтологиями, понимает вложенность терминов. В результате обучения нейронных сетей нашими экспертами система понимает из контекста документа, что это вложенные термины с разными написаниями.

Когнитивный поиск позволяет задавать вопросы с уточнениями и получать сфокусированные ответы, а фильтрация — оставлять в поисковой выдаче документы, удовлетворяющие нужным пользователю параметрам. Например, можно выбрать несколько конкретных источников данных или оставить только документы заданного типа.

- Подстраивается ли система под запросы конкретного пользователя? Вы создаете свой внутренний Google?

Сравнивать ее с Google и «Яндексом» я бы не стал, у нашей поисковой системы иные задачи. Мы только развиваем персонализацию и планируем в этом году сделать ее качественной. Дело в том, что наши сотрудники занимаются абсолютно разными вещами. Даже геологи, сидящие в одном отделе, могут решать совершенно разные задачи. Например, одни по стандартной модели рассчитывают запасы, а другие — развивают искусственный интеллект и нейронные сети в геологии. Соответственно, одним система должна выдавать более фундаментальную геологическую информацию, а другим — скорее «айтишную» или на стыке геологии и ИТ. То есть без персонализации работа системы не будет достаточно эффективной.

- Как вы выбирали подход к решению задачи?

Мы познакомились с имеющимися российскими и международными разработками, причем активно изучали опыт не только нефтяных и энергетических компаний, но и интернет-ретейлеров, поскольку в этом бизнесе поиск ощутимо влияет на результат. Затем провели несколько экспериментов, осуществили пилотное внедрение в офисе НТЦ в Санкт-Петербурге и принялись за разработку собственного решения совместно с компанией Nаumen. На реализацию проекта ушло 10 месяцев.

- Какие данные использует система и какова стратегия их сбора?

Объем внутреннего файлового хранилища «Газпром нефти» превышает сотни терабайт. Кроме него в первом прототипе системы мы использовали наборы данных из внешних онлайн-ресурсов, в совокупности около 70 тыс. документов.

В дальнейшем начнем расширять перечень внешних источников — примерно до ста, добавим также ресурсы, которые наши эксперты используют в своей работе.

- Какими технологическими средствами вы решали поставленную задачу?

В основе лежит система ElasticSearch, многое было разработано на языке Scala. Использованы и другие свободно распространяемые программные продукты, а также решения Naumen.

Поиск — это внутреннее клиент-серверное приложение, доступное сотрудникам в виде веб-сайта на корпоративных ПК или удаленно с личных ноутбуков. Сейчас единая поисковая платформа объединяет несколько сайтов, и мы работаем над ее расширением.

- Какие были основные сложности в ходе проекта, как их преодолевали?

Взаимодействие с любыми поисковыми системами выстраивается постепенно, вначале люди не доверяют возможностям технологии. Мы помним это по опыту взаимодействия с «Яндексом» и Google: несколько лет назад мы вбивали в строку запроса лишь одно-два слова, поскольку знали, что если введем предложение, то ничего в ответ не получим. Теперь мы спрашиваем все, что придет в голову, — и именно такое качество мы намерены развивать в своей системе.

Пользователи уже начинают больше доверять корпоративной системе: раньше поисковые запросы были в одно-два слова, сейчас длина запросов растет.

Технические сложности были из-за качества, а также разнородности входных данных (новости, НМД, книги, проекты и т. д.) и их источников (система распространения знаний, внешние ресурсы, сетевые папки). Качество отсканированных документов было очень разным, многие документы были «зашумлены», требовалась очистка, удаление нечитаемых фрагментов и нераспознанного текста.

- В какой срок вы рассчитываете накопить объем запросов, достаточный для интеллектуального роста системы?

У нас нет этой проблемы, потому что нам не требуется такого количества запросов, как у Google. Мы избегаем «холодного» старта, характерного для систем машинного обучения, базирующихся на сборе информации без «учителя». Например, новому геологу, введенному в нашу систему, мы дадим модель, уже обученную для другого сотрудника с наиболее близким функционалом. Мы проводили экспертное обучение, то есть подаваемые в систему материалы уже размечены, проанализированы экспертами и «готовы к употреблению». Поэтому острой нужды в накоплении большого количества данных нет. Тем не менее мы рассчитываем на то, что через год система будет работать гораздо лучше, чем сейчас, потому что она еще и самообучается.

- Каких результатов вам удалось достичь?

По экспертной оценке, сотрудники занимаются поиском информации и каких-либо документов по 30–50 минут в день. Мы сократили это время практически вдвое и надеемся еще улучшить результат. Время сотрудников высвобождается, и это дает компании существенный экономический эффект. Кроме того, благодаря точности и полноте результатов поисковой выдачи повысилась эффективность принятия решений.

И еще один важный итог. Мы провели эксперимент: две группы сотрудников получили задачу по определенному направлению и доступ к системе умного поиска для ее решения. При этом ни в одной из групп не было специалиста по данному направлению. И участники обеих групп решили задачу на таком уровне, который позволил применить их решение в компании. Оказалось, что система может выступать в роли эксперта в тех ситуациях, когда пользователь не знает точно, что ему делать. С помощью «умной системы» он может найти ответы на свои вопросы и решить задачи, с которыми не сталкивался прежде. Найти в Интернете видеоинструкцию и сразу сделать хорошо то, что делаешь впервые, сегодня уже не проблема.

Когнитивная система служит для управления знаниями и их трансфера между подразделениями.

- Как планируется дальше развивать этот проект, помимо персонализации поиска?

Мы уже начали распространять решение на весь холдинг, скоро откроем его всем сотрудникам. Будем расширять возможности подключения к платформе по API других приложений и источников знаний. Намерены развивать инструмент, позволяющий делать аналитику на основе семантики запроса. Хотим сильно продвинуться в создании знаний, которых не существовало до запроса. То есть, анализируя несколько источников, система должна уметь собрать из множества документов один и предоставить его в ответ на запрос пользователя.

Теги: CDO Award BIG DATA 2019 Газпром

На ту же тему: