Менеджер ИИ-продуктов нашей компании Ярослав Ращупкин рассказал Tproger о технологии распознавания текста и применении искусственного интеллекта.
Ниже приводим текст оригинальной публикации.
Оцифровка документов, перевод текста на фотографии или анализ товаров на складе — со всеми этими задачами помогает справиться технология распознавания текста (OCR). Разберемся, чем она полезна для бизнеса и какие возможности для ее развития есть сейчас.
Оптическое распознавание символов (англ. optical character recognition, OCR) — технология распознавания текста, которая преобразует данные с печатных носителей в машинно-кодированный текст. Носителями могут быть разные предметы: документы, книги, счета, дорожные указатели и другие вещи, на которых есть текст. Разберем, как работает алгоритм:
● Оцифровка. Первым шагом система сканирует носитель, в результате получается растр — матрицу пикселей. На этом этапе формируется файл, который пока что и для пользователя, и для системы выглядит как привычный скан.
● Бинаризация. Растр может быть цветным или черно-белым, поэтому на втором шаге система приводит его обязательно к ч/б-формату, выравнивает угол наклона и размер. Во время обработки алгоритм будет проходить по тексту построчно, поэтому неправильно расположенные строки могут усложнить или остановить работу.
● Сегментация страницы. Третьим шагом алгоритм определяет в бинарном растре колонки и абзацы текста, слова и распознаваемые символы.
● Сохранение обработанной информации. Четвертый этап завершает подготовительную работу к распознаванию текста. Система сохраняет полученный файл в текстовом формате так, чтобы в нем отображались все распознанные символы и строки.
● Классификация символов. Анализируя сохраненный документ, классификатор выявляет, какой символ изображен. Чаще всего программа может предложить несколько подходящих вариантов, у каждого из которых будет оценка точности соответствия, или сообщить, что элемент не является символом. Это значит, что элемент либо не относится к распознаваемому алфавиту, либо в целом не является буквой или знаком препинания, а может быть, например, рисунком на полях тетради.
Если предложено несколько вариантов, то алгоритмы, которые занимаются постобработкой, могут выявить, какое сочетание рядом стоящих символов наиболее вероятно. Для этого они используют словари и триграммы — часто встречающиеся последовательности из трех символов.
● Постобработка и аналитика. На финальном этапе система на основе оценок вероятностей символов и информации от постобработчиков формирует из символов распознанный текст, выявляет потенциальные орфографические и грамматические ошибки. На сегодняшний день доля подозрительных трудно распознаваемых символов очень мала — в среднем менее 0,2%.
С развитием технологии система менялась: повышалась скорость работы и точность предсказаний, качество сканирования. В западных странах OCR стала активно развиваться уже в 1930-х годах, но в Советском Союзе собственная технология появилась позже.
На сегодняшний день технологии OCR приобрели значительный размах: алгоритмы могут выявлять информацию в документах на паспортных контролях, распознавать номера машин при превышении скорости или оцифровывать счета. Современная OCR, разработанная с применением нейросетей, способна распознавать 15 страниц печатного текста за 1 секунду, причем делать это более чем на 100 языках.
Программы с применением OCR используются повсеместно. Рассмотрим наиболее популярные сценарии:
● Оцифровка документов. Благодаря активным процессам цифровизации компании создают базы знаний, счетов, договоров.
● Анализ содержания, классификация и суммаризация текста. Современные сервисы на основе ИИ определяют тип документа. Они распознают суть и составляют небольшие выжимки с главной информацией. На основе этих данных сервисы могут классифицировать документ и направить его в нужную базу данных, а также маршрутизировать между сотрудниками.
● Перевод. Онлайн-переводчики позволяют по фото определить, что написано в меню в ресторанах, на дорожных знаках или документах на иностранном языке и сохранить текст для дальнейшего применения.
● Генерация нового контента на основе распознанного. Изучив распознанный текст, система может предложить дополнения или исправления, переписать его в нужном стиле и формате. Например, на основе полученного письма ИИ может составить вариант письма-ответа, а при анализе юридических документов подсветить неверно указанную информацию: сроки договоров или номера соглашений.
● Распознавание эмоциональной окраски текста. На сегодняшний день искусственный интеллект может определять тональность текста. В отзывах на картах или сервисах-отзовиках выявлять негативные и позитивные комментарии, а также анализировать посты в социальных сетях. На основе этих данных бренды могут адаптировать коммуникационную стратегию и улучшать клиентский сервис.
Это достаточно общие возможности сервисов с OCR, которые могут быть полезны и обычным пользователям. Для бизнеса у сервисов на основе ИИ и OCR есть очевидные преимущества в виде автоматизации и ускорения процессов в самых разных сферах.
1. Финансистам: обрабатывать финансовые документы, чеки и счета. Например, отечественный сервис Soica, резидент Сколково, помогает сканировать и анализировать счета-фактуры и акты. Сервис помогает ускорить процесс обработки данных в 2 раза и снизить его стоимость на 50%.
2. Грузоперевозчикам и логистам: анализировать информацию на грузах и в почте. Система «Солво» распознает данные на номерах грузовых машин, регистрирует приезд и отъезд транспортных средств в грузовых терминалах автомобильных и железных дорог и морских путей. Кроме того, алгоритм может выявлять повреждения контейнеров с грузами и составлять акты осмотров.
3. Сотрудникам магазинов и складов: распознавать данные о продуктах и складских запасах. Например, в Яндекс Лавке еще в прошлом году начали обновлять информацию о товарах с помощью нейросетей и OCR. Технология сканирует этикетку продукта, распознает текст, а нейросеть на основе этой информации заполняет карточку товара. Внедрение ИИ позволяет ускорить процесс и уменьшить количество ошибок из-за человеческого фактора. Кроме того, на складах Яндекс Маркета используются роботы, которые очень быстро сканируют палеты, что позволяет каждые два часа актуализировать данные о наличии товаров.
4. Юристам: распознавать, оцифровывать и обрабатывать документы, выявлять риски. Сервис Contract проверяет договора на соответствие юридическим нормам, выявляет риски и предлагает исправления. Более того, компании могут обратиться за внедрением решения в свою систему ЭДО. В этом случае готовый продукт будет адаптирован под конкретные требования бизнеса и логично встроен во всю цепочку работы с документами.
Технологии распознавания текста уже достаточно сильно интегрированы в жизнь обычных людей и работу бизнеса, а возможности искусственного интеллекта помогают сделать сервисы более понятными и автоматизировать рутинные процессы. Хотя технологии продвинулись достаточно далеко, все еще есть блокеры и направления, которые задают вектор будущих работ.
Увеличение точности распознавания за счет применения технологий ИИ. На сегодняшний день 99,9% точности обеспечивают сервисы с частичной верификацией человеком, поэтому применение LLM может увеличить точность распознавания за счет контекстного предсказания без участия человека.
Логическое продолжение OCR — ICR, интеллектуальное распознавание символов. Такие системы могут достаточно точно определять рукописный текст, анализировать информацию в старых, выцветших книгах и по контексту предлагать наиболее релевантный вариант оцифровки. Благодаря расширению возможностей интеллектуальной обработки текста растет спрос на распознавание информации из различных источников, например, библиотек, архивов, а также дипломов, паспортов и других документов.
В ближайшее время наш менеджер свяжется с Вами.