Инструменты оптического распознавания текста или символов (OCR, Optical Character Recognition) сегодня прочно ассоциируются с технологиями искусственного интеллекта и машинного обучения. При этом их история началась почти сто лет назад. Какие задачи эти инструменты решают сегодня? Скоро ли наступит время, когда по нажатию одной «кнопки» система сможет провести полный анализ текста с любой картинки без участия человека?
Начинать разговор об инструментах OCR и роли технологий искусственного интеллекта и машинного обучения сегодня стоит с уточнения понятий. Широкая аудитория неоднозначно воспринимает эти термины, хоть и слышит их постоянно. Ведь, например, тот же калькулятор, самостоятельно выполняющий определенные операции, уже допустимо назвать искусственным интеллектом. Как и любую базу данных с поисковой системой, которую можно спросить о чем-либо и получить ответ.
ИИ в OCR
Дело в том, что под общим определением ИИ скрывается очень разнообразный стек технологий, которые на верхнем уровне подразделяются на слабый (Narrow AI), сильный (General AI) и продвинутый (Super AI) ИИ. Первый — это достаточно простой алгоритм, запрограммированный на выполнение одной узкой задачи. Второй на основе заложенных в него данных может имитировать человеческое мышление, рассчитывать последовательность задач и принимать решения, в том числе, с применением нейросетей. Третий способен самостоятельно развиваться, мыслить, искать информацию, превосходя человека в любых задачах. Правда, пока он существует только в виде гипотез, так как требует достаточно высоких вычислительных мощностей не только для своего существования, но и для своего рождения. Впрочем, над созданием необходимых дата-центров и прорывных процессоров уже работают лидеры отрасли. При этом новый GPT-5 пока что не будет кардинально отличаться от предшествующей версии. Да, у него больший объем данных и глубже понимание контекста, но в случае с OCR реставрация документов, точное выделение разнонаправленного текста из сильно зашумленных, искаженных документов, распознавание рукописного текста при замусоренности изображений — это по-прежнему отдельное направление для работы. Поэтому сегодня, развивая систему OCR, добавляя в нее новые функции, мы не рассчитываем на ИИ в финальной концепции, а имеем в виду симбиоз «достаточных» технологий, которые позволяют программе взаимодействовать с окружающим миром: получать информацию из разных источников и выдавать ответ.
Само понятие оптического распознавания символов также нуждается в пояснении. Первые аппаратные средства, которые можно охарактеризовать как OCR-системы, появились почти сто лет назад: знаменитая, запатентованная в 1929 году «читающая машина» Густава Таушека на основе готовых шаблонов могла переводить текст на изображениях в печатный вид. По сути, читая любые материалы, каждый из нас занимается оптическим распознаванием: вычленяет в книге или на экране буквы и слова в определенном порядке, сравнивает с имеющейся в голове «базой данных» (например, системой естественного языка), анализирует и сопоставляет со знакомыми символами. Задача разработчиков инструментов OCR фактически заключается в том, чтобы машина могла качественно повторить этот процесс. Искусственный интеллект, разумеется, способствует достижению подобной цели.
Что умеет OCR уже сегодня
Рассматривая типовую функциональность инструмента OCR, мы пройдем по всему бизнес-процессу распознавания — от получения документа до аналитики.
На первом этапе системе необходимо просто понять, что на каком-либо изображении содержится текст — на отсканированном документе, фотографии, на ценнике или этикетке товара в магазине, в видеофайле или где-то еще. Отличить один объект от другого, вычленить потенциальный текст — это простая функция для технологии компьютерного зрения, но она одна из ключевых. Человек также читает не все подряд, а лишь то, на чем акцентирует свое внимание.
Более сложная задача — качественно передать содержание текста в систему, когда на изображении большое количество помех и шумов. Мешать могут дополнительные объекты в кадре, помарки в рукописном тексте, блики или размытия на фотографии, искажения текста, мусорные элементы, дефекты (например, слабо проявленный, смятый и потертый европротокол с множественными помарками нервничающего водителя) и т.д.
Поэтому перед началом анализа к объекту распознавания применяются технологии очистки и предобработки, которые позволяют сделать этот текст более качественным: развернуть, кадрировать, увеличить резкость, убрать шумы и прочие посторонние элементы. Существенную помощь на этих этапах оказывают легкие узконаправленные алгоритмы, которые построены на простых архитектурах и могут, например, детектировать вывеску, затем найти на ней шумы и символы, нормализовать текст и привести его в читаемый вид, пригодный для распознавания. Для этого необязательно перегружать систему сложными нейросетями.
Нормализованное изображение может быть подано на обработку специализированной сети, осуществляющей более точное детектирование текста. При этом важно понимать, что перегружать одну сеть, используя ее для решения всех задач по детекции, — слишком затратно. Поэтому вначале используются классификаторы на определенные виды оставшейся дефектовки и структуры текста, затем применяются сети по определению компоновки документа, далее уже легкие узконаправленные сети решают свои задачи: одна — распознавания очищенного фрагмента с текстом, другая — определения шрифта, языка и т.д.
Ключевой шаг после распознавания — понимание контекста. Система должна определить в документе те атрибуты, которые будут в дальнейшем использоваться в определенных бизнес-процессах: бухгалтерии, логистике, юридической службе и т.д. То есть на изображении начинается поиск определенных ключевых слов: сумм, дат, номеров контейнеров, заказов, договоров. Если документ структурированный (например, паспорт), систему можно настроить на проверку определенных областей. Если неструктурированный — она будет искать нужные сведения по всему тексту, изучая каждое слово.
В дальнейшем распознанные атрибуты возможно анализировать дополнительно, формируя комплекты документов, актуализируя и сверяя данные с информационными ресурсами, а также полностью или частично переносить их в другие системы. Для этого также справедливо использовать как алгоритмику и правила, так и языковые модели. Задав нейросети грамотный промпт, есть шанс получить качественный ответ.
Таким образом, уже сейчас технологии OCR могут полностью или частично автоматизировать рутинные процессы, связанные с обработкой информации в документах самых разных категорий: деловые бумаги и нормативные акты, этикетки, строительные чертежи, судебная документация и многое другое. Наибольшую пользу они приносят в связке со смежными системами — например, с CRM и электронным документооборотом.
Перспективы инструментов распознавания
Все движется к тому, что с расширением возможностей технологий искусственного интеллекта OCR-системы полностью трансформируются или сольются с целевым понятием ИИ, наделенным первоклассным зрением, аналитическим умом и тонким слухом. Главный сдерживающий фактор на пути — недостаток вычислительных мощностей, к тому же существующие дата-центры потребляют колоссальное количество энергии и крайне дороги в обслуживании.
Проблема решается несколькими способами. Производители микроэлектроники вроде Intel, AMD, NVIDIA выпускают процессоры, адаптированные под задачи ИИ, но на данный момент стоимость их очень высока, а мощность по-прежнему недостаточная, несмотря на то, что некоторые показатели новинок впечатляют. Разработчики нейросетей пытаются оптимизировать свои системы, делая их доступными для более слабого «железа». Это «приземляет» текущие сети, но не приближает их к целевому понятию ИИ. Крупный бизнес занимается оснащением мощных дата-центров, а рядовые пользователи и небольшие компании (например, дизайнерская студия или контент-менеджер) могут рассчитывать на облачные сервисы для доступа к нейросетям по модели подписки.
Однако полноценный прорыв в массовом использовании технологий на основе искусственного интеллекта, в том числе выход на новый уровень систем OCR, будет возможен только с развитием квантовых и биокомпьютеров. Соответствующие наработки уже мелькают в новостных сводках и обзорах. В момент, когда квантовые технологии станут массово доступными, мы, скорее всего, и обретем ту самую «волшебную кнопку», позволяющую пользователю дать системе какую угодно интеллектуальную задачу и получить качественный результат. Хотя, конечно, это перспектива дальняя.
Автор — Виктор Горюнов, директор продукта SOICA компании SL Soft