Объемы информации, необходимой для принятия решений, непрерывно растут. Но при этом нельзя допустить, чтобы на поиск необходимой пользователю информации уходило много времени. Информационные технологии, используемые в Научно-техническом центре «Газпром нефти» (НТЦ), позволяют создавать новые инструменты анализа и быстро находить нужные данные.
В НТЦ разрабатывают эффективные технологии добычи нефти на основе самых современных научных исследований. Еще одно важное направление деятельности компании, которым занимаются сотрудники Центра управления бурением «ГеоНавигатор» в Санкт-Петербурге — сопровождение высокотехнологичных скважин, расположенных не только в России, но и за рубежом.
В прошлом году здесь реализовали проект «Система когнитивного поиска», который способен поднять на качественно новый уровень работу сотрудников всей компании. О том, что дает компании «умный поиск», рассказал руководитель проекта в Научно-техническом центре «Газпром нефти» Евгений Кирьянов, номинант на премию CDO Award 2019.
- В чем суть задачи, которую решает этот проект?
Для нас, как и для любой наукоемкой компании, крайне важны исследования, связанные с решением повседневных бизнес-задач и преодолением технологических вызовов. Наши сотрудники постоянно нацелены на поиск новых решений, подходов и знаний. Чтобы осилить такие задачи, надо обращаться как к внешнему отраслевому опыту, так и к внутреннему опыту, накопленному сотрудниками компании.
27 марта — форум BIG DATA 2019 Центральное событие года для общения с экспертами индустрии больших данных и интеллектуальной аналитики!
|
Проанализировав имеющиеся базы данных и источники информации, мы увидели следующее. Во-первых, неизвестно, в какой из множества систем находятся искомые знания и ответы на вопросы. Во-вторых, сотруднику тяжело быстро найти информацию, требующуюся ему немедленно. Когда архивы измеряются сотнями терабайт и включают сотни тысяч документов, пользоваться стандартными локальными инструментами поиска в приложениях затруднительно.
Сначала мы попробовали построить поисковую систему на основе технологии Microsoft Share Point, но очень быстро выяснилось, что даже с ручным управлением, составлением словарей синонимов и настройкой фильтров стандартный поиск не справляется.
Поэтому мы решили создать собственную поисково-аналитическую систему, которая помогла бы сотрудникам максимально быстро находить ответы на свои вопросы и повысила бы эффективность экспертного сопровождения. Первая задача, которую мы перед собой поставили, — создание единой платформы для преодоления разрозненности источников данных, вторая — когнитивность поиска.
- Почему понадобилась именно когнитивная система?
Если документов немного, мы можем использовать поиск на базе совпадения слов, но когда число документов близится к миллиону, система выдает слишком много результатов. При этом в поисковой выдаче нет ранжирования по тому параметру, который важен сотруднику именно сейчас.
Система когнитивного поиска работает по-другому. Она сравнивает не буквы в словах, а смысловые значения слов, предложений и целых текстов, учитывает морфологию слов в запросе, понимает сокращения и специализированные термины. И например, по запросу «легкие фракции нефти» она выдаст результаты со словами «бензин» и «керосин». Даже если мы по-разному пишем одни и те же термины, система очень быстро сама обучается и понимает, что написанное по-русски и по-английски — это одно и то же. Система также работает с функциональными онтологиями, понимает вложенность терминов. В результате обучения нейронных сетей нашими экспертами система понимает из контекста документа, что это вложенные термины с разными написаниями.
Когнитивный поиск позволяет задавать вопросы с уточнениями и получать сфокусированные ответы, а фильтрация — оставлять в поисковой выдаче документы, удовлетворяющие нужным пользователю параметрам. Например, можно выбрать несколько конкретных источников данных или оставить только документы заданного типа.
- Подстраивается ли система под запросы конкретного пользователя? Вы создаете свой внутренний Google?
Сравнивать ее с Google и «Яндексом» я бы не стал, у нашей поисковой системы иные задачи. Мы только развиваем персонализацию и планируем в этом году сделать ее качественной. Дело в том, что наши сотрудники занимаются абсолютно разными вещами. Даже геологи, сидящие в одном отделе, могут решать совершенно разные задачи. Например, одни по стандартной модели рассчитывают запасы, а другие — развивают искусственный интеллект и нейронные сети в геологии. Соответственно, одним система должна выдавать более фундаментальную геологическую информацию, а другим — скорее «айтишную» или на стыке геологии и ИТ. То есть без персонализации работа системы не будет достаточно эффективной.
- Как вы выбирали подход к решению задачи?
Мы познакомились с имеющимися российскими и международными разработками, причем активно изучали опыт не только нефтяных и энергетических компаний, но и интернет-ретейлеров, поскольку в этом бизнесе поиск ощутимо влияет на результат. Затем провели несколько экспериментов, осуществили пилотное внедрение в офисе НТЦ в Санкт-Петербурге и принялись за разработку собственного решения совместно с компанией Nаumen. На реализацию проекта ушло 10 месяцев.
- Какие данные использует система и какова стратегия их сбора?
Объем внутреннего файлового хранилища «Газпром нефти» превышает сотни терабайт. Кроме него в первом прототипе системы мы использовали наборы данных из внешних онлайн-ресурсов, в совокупности около 70 тыс. документов.
В дальнейшем начнем расширять перечень внешних источников — примерно до ста, добавим также ресурсы, которые наши эксперты используют в своей работе.
- Какими технологическими средствами вы решали поставленную задачу?
В основе лежит система ElasticSearch, многое было разработано на языке Scala. Использованы и другие свободно распространяемые программные продукты, а также решения Naumen.
Поиск — это внутреннее клиент-серверное приложение, доступное сотрудникам в виде веб-сайта на корпоративных ПК или удаленно с личных ноутбуков. Сейчас единая поисковая платформа объединяет несколько сайтов, и мы работаем над ее расширением.
- Какие были основные сложности в ходе проекта, как их преодолевали?
Взаимодействие с любыми поисковыми системами выстраивается постепенно, вначале люди не доверяют возможностям технологии. Мы помним это по опыту взаимодействия с «Яндексом» и Google: несколько лет назад мы вбивали в строку запроса лишь одно-два слова, поскольку знали, что если введем предложение, то ничего в ответ не получим. Теперь мы спрашиваем все, что придет в голову, — и именно такое качество мы намерены развивать в своей системе.
Пользователи уже начинают больше доверять корпоративной системе: раньше поисковые запросы были в одно-два слова, сейчас длина запросов растет.
Технические сложности были из-за качества, а также разнородности входных данных (новости, НМД, книги, проекты и т. д.) и их источников (система распространения знаний, внешние ресурсы, сетевые папки). Качество отсканированных документов было очень разным, многие документы были «зашумлены», требовалась очистка, удаление нечитаемых фрагментов и нераспознанного текста.
- В какой срок вы рассчитываете накопить объем запросов, достаточный для интеллектуального роста системы?
У нас нет этой проблемы, потому что нам не требуется такого количества запросов, как у Google. Мы избегаем «холодного» старта, характерного для систем машинного обучения, базирующихся на сборе информации без «учителя». Например, новому геологу, введенному в нашу систему, мы дадим модель, уже обученную для другого сотрудника с наиболее близким функционалом. Мы проводили экспертное обучение, то есть подаваемые в систему материалы уже размечены, проанализированы экспертами и «готовы к употреблению». Поэтому острой нужды в накоплении большого количества данных нет. Тем не менее мы рассчитываем на то, что через год система будет работать гораздо лучше, чем сейчас, потому что она еще и самообучается.
- Каких результатов вам удалось достичь?
По экспертной оценке, сотрудники занимаются поиском информации и каких-либо документов по 30–50 минут в день. Мы сократили это время практически вдвое и надеемся еще улучшить результат. Время сотрудников высвобождается, и это дает компании существенный экономический эффект. Кроме того, благодаря точности и полноте результатов поисковой выдачи повысилась эффективность принятия решений.
И еще один важный итог. Мы провели эксперимент: две группы сотрудников получили задачу по определенному направлению и доступ к системе умного поиска для ее решения. При этом ни в одной из групп не было специалиста по данному направлению. И участники обеих групп решили задачу на таком уровне, который позволил применить их решение в компании. Оказалось, что система может выступать в роли эксперта в тех ситуациях, когда пользователь не знает точно, что ему делать. С помощью «умной системы» он может найти ответы на свои вопросы и решить задачи, с которыми не сталкивался прежде. Найти в Интернете видеоинструкцию и сразу сделать хорошо то, что делаешь впервые, сегодня уже не проблема.
Когнитивная система служит для управления знаниями и их трансфера между подразделениями.
- Как планируется дальше развивать этот проект, помимо персонализации поиска?
Мы уже начали распространять решение на весь холдинг, скоро откроем его всем сотрудникам. Будем расширять возможности подключения к платформе по API других приложений и источников знаний. Намерены развивать инструмент, позволяющий делать аналитику на основе семантики запроса. Хотим сильно продвинуться в создании знаний, которых не существовало до запроса. То есть, анализируя несколько источников, система должна уметь собрать из множества документов один и предоставить его в ответ на запрос пользователя.