Номинируйте кейсы на Workspace Digital Awards 2026. Прием заявок до 15 декабря по льготной цене, успейте принять участие!
PRAI
ИИ по распознаванию архивных документов
PRAI
#Разработка сайтов под ключ

ИИ по распознаванию архивных документов

84 
PRAI Россия, Краснодар
Поделиться: 0 0 0
ИИ по распознаванию архивных документов
Клиент

ООО «ПРАЙ»

Сфера

Образование, наука, работа

Регион

Россия, Славянск-на-Кубани

Тип сайта

Порталы и сервисы

Сдано

Август 2025

Задача

Проект является нашей собственной разработкой, готовой для внедрения в экосистемы заказчика.

В России образовалась потребность в качественных технологиях распознавания с картинки неструктурированных текстовых документов.

Решений по распознаванию паспортов, СНИЛС итд на рынке достаточно, но сервисов, которые смогли бы с сохранением структуры распознать научную документацию, деловую переписку или отчёты, с различными графиками и таблицами — недостаточно.

Мы приняли решение создать сервис (с возможностью SaaS) который бы при помощи Искусственного интеллекта распознавал любые типы документов, от газетных статей до научных трудов, сохранял структуру документа и давал возможность её редактирования.

Особое внимание мы уделили возможности распознавания таблиц различных видов и распознаванию формул.

Решение

Этапы работы:

Анализ задачи

Составление плана работы(спринты)

Разработка алгоритма по спринтам

Интеграция алгоритма с системой

Тестирование

Запуск в production

Доработка и обновление

1OCR

Мы изучили все имеющиеся технологии распознавания документов и определились с несколькими, которые взяли для тестирования. В хоте работы выявили, что наиболее подходящей для наших целей будет технология OCR.

2Подготовка датасета

Для обучения модели был собран пул текстов на русском языке и различными вариантами графической реализации. Тексты были подготовлены для обучения.

3Обучение

Мы произвели обучение механизма интеллектуального анализа привязке узлов онтологической модели к разделам выходного документа на основе многоклассовой классификации текстов. 

Благодаря работе мы добились точности распознавания 98,1% при скорости 5,87 сек. При том, что Tesseract показывает точность 97,4%, скорость 5,29 сек. Тест проведён на RDIOD: русский документ и набор данных OCR

4Формирование документов

Далее был реализован механизм формирования XML документа в соответствии со сформированными онтологическими моделями (шаблонами) по стандарту ANSI/NISO STS 1.2.

Кроме того реализована выгрузка распознанного документа в DOCX и PDF

5Пользовательский интерфейс

Создан пользовательский интерфейс, который позволяет получить информацию о возможностях сервиса, а также распознать документ с таблицами, формулами и картинками, с возможностью выгрузить распознанный документ. 

Результат

MVP проекта доступна для использования любому пользователю

https://detector.prai.su/

Стек технологий

  • JavaScript JavaScript Язык программирования
  • Vue.js Vue.js Фреймворк/библиотека
  • Node.js Node.js Среда разработки
  • Figma Figma Графический редактор
  • NGINX NGINX Веб-сервер

Выскажите мнение
Авторизуйтесь, чтобы добавить свой комментарий.
оставить заявку

Хотите заказать похожий проект?

PRAI с удовольствием обсудит вашу задачу

Оставить заявку