Организации, работающие с документами, приобрели мощного союзника, помогающего им оптимизировать бизнес-процессы. Средства обработки естественного языка (Natural Language Processing, NLP) – направления искусственного интеллекта, ориентированного на организацию взаимодействия – позволяют таким компаниям, как Accenture, извлекать из документов ценную информацию и сокращать расходы, обращаясь в эпоху машинного обучения к текстовым, неструктурированным компонентам взаимодействия.
Имея в своей системе учета более миллиона контрактов, к которым ежемесячно добавляются тысячи новых, юридическое подразделение Accenture, насчитывающее в штате 2800 профессионалов, прилагало немалые усилия для того, чтобы найти в договорах требуемую информацию. Процесс поиска нужных сведений в документах был весьма трудоемким и утомительным.
«Поиск конкретной информации или связанных с определенными событиями, на протяжении многих лет выполнялся вручную, – указал глобальный управляющий директор Accenture по цифровой трансформации бизнеса, операциям и корпоративному анализу Майк Мареска. – Только таким образом мы могли понять в деталях, что представляют собой наши клиенты и каковы наши контрактные обязательства. В сложившейся ситуации для повышения эффективности поиска в системе учета договоров группа Internal IT Enterprise Insight решила обратиться к средствам обработки естественного языка и искусственного интеллекта».
Запуск проекта Accenture Legal Intelligent Contract Exploration (ALICE) был обусловлен двумя причинами. Во-первых, в системе Manage myRecords (MMR), где хранится более миллиона контрактов, требовалось организовать текстовый поиск. Во-вторых, компании был нужен поиск конкретных положений договоров.
«Сегодня у нас есть штат исследователей данных, моделирующих аналитические решения, которые могли бы индексировать это крупное хранилище договоров и разрабатывать специальные аналитические алгоритмы для извлечения отдельных положений и условий договоров», – сообщил Мареска.
Это непростая задача, поскольку исторически сложилось так, что условия в договорах Accenture никак не помечались. А значит, построить модель классификации здесь было невозможно. Предстояло работать с не очерченным строго набором документов и идентифицировать положения, не опираясь на помеченные данные.
Ситуация осложнялась тем, что многие контракты заключались на условиях клиентов с использованием различных формулировок и форматов представления. А значит, идентифицировать положения по шаблону – форс-мажор, обязательства, требования к конфиденциальности данных и т.д. – не представлялось возможным. Прямая ссылка на условия присутствует в контрактах далеко не всегда, поэтому нужен был поиск по ключевым словам, которые косвенно могли бы свидетельствовать о наличии того или иного положения.
Чтобы решить эту задачу, участники проекта решили обратиться к «эмбеддингу» (word embedding) – методу обработки естественного языка, в основе которого лежит предварительное преобразование слов в соответствующие им числовые вектора, позволяющие судить об их семантическом сходстве. Модель извлекает из договора список ключевых слов с оценкой их релевантности, позволяя решению выборки положений самостоятельно рассчитать, насколько релевантен каждый абзац документа положению конкретного типа.
В избранной модели документы просматриваются абзац за абзацем, выделяя ключевые слова и определяя, соответствует ли абзац конкретному положению. Слова «наводнение», «землетрясение» и «катастрофа», например, обычно ассоциируются с положением «форс-мажор».
«Средства анализа позволяют нам искать ключевые слова, условия, конкретные пункты и юридические положения сначала на английском языке, – пояснил Мареска. – На следующем уровне в действие вступают средства перевода».
Руководство компании передало проект ИТ-службе, указав конкретные сценарии использования, обеспечивающие непрерывность ведения бизнеса.
Путь от концептуальной идеи до экспериментального проекта у команды Марески занял шесть месяцев. Тестирование проводилось на группах юристов Accenture. На основе полученных результатов был создан минимально жизнеспособный продукт, переданный группе внедрения решений для последующей доработки в масштабе всего предприятия. Спустя еще восемь месяцев появился готовый вариант.
Обязательным условием перехода от прототипа к готовому продукту Мареска назвал тесное взаимодействие между юридической организацией Internal IT Enterprise Insight Studio и командой ИТ-разработчиков. Эксперты по данным из группы MMR сыграли ключевую роль в определении структуры метаданных и формировании связей метаданных с текстом договоров. Эксперты в области юриспруденции помогали выстраивать компоненты для извлечения начальных положений. В команду разработчиков входили исследователи данных, инженеры UI/IX, инженеры-программисты и функциональные архитекторы.
Сегодня система ALICE, принесшая Accenture премию CIO 100 Award in IT Excellence, полностью развернута и заметно улучшила возможности компании в части выявления и понимания рисков. Она помогла существенно сократить время, затрачиваемое юристами на поиск интересующей их информации в договорах.
«Впоследствии ее функционал был расширен, – сообщил Мареска. – Появились, к примеру, сценарии 'что, если'. Определяли ли мы когда-либо рамки своих обязательств тем или иным способом? По мере дальнейшей эксплуатации появляются и другие сценарии. Мы находим новые способы извлечения дополнительной выгоды из тех данных, что у нас имеются».
Компания рассматривает ALICE как часть процесса более широкой цифровой трансформации своих средств юридического анализа. И с этой точки зрения, ALICE становится центральным звеном разнообразных сервисов юридической аналитики.