СофтЭксперт
Секунды вместо часов: ускорили поиск документов в архиве предприятия
СофтЭксперт
#Разработка программного обеспечения

Секунды вместо часов: ускорили поиск документов в архиве предприятия

13 
СофтЭксперт Россия, Тула
Поделиться: 0 0 0
Секунды вместо часов: ускорили поиск документов в архиве предприятия
Сфера

Промышленность и оборудование

Сдано

Август 2025

Задача

Крупное российское промышленное металлургическое предприятие* ежедневно работает с большим объемом технической, производственной и отчетной документации. Значительную часть цифрового архива составляют документы разных форматов, включая Word, Excel, PDF и сканированные файлы.

По мере роста архива поиск информации становился все более трудоемким. Чтобы найти нужную фразу, номер документа, название изделия или другой текстовый фрагмент, сотрудникам приходилось вручную просматривать десятки и даже сотни файлов. Это увеличивало нагрузку на сотрудников, отнимало много времени и повышало риск пропустить важную информацию.

Вариант с использованием готового решения компании не подходил. Подписочные сервисы требовали регулярных затрат на лицензии, а обработка документов во внешней инфраструктуре не соответствовала требованиям по безопасности корпоративных данных.

Заказчик принял решение разработать собственное приложение, которое работает внутри корпоративной инфраструктуры, не требует передачи документов сторонним сервисам и учитывает особенности внутренних процессов компании.

Задачи:

• реализовать обработку документов популярных форматов: XLS, XLSX, DOC, DOCX, RTF и PDF;

• добавить извлечение текста, включая OCR-распознавание сканированных документов;

• обеспечить корректный поиск информации независимо от типа и структуры файлов;

• протестировать приложение и проверить качество распознавания и поиска на разных типах документов.

*Название компании не раскрывается в соответствии с соглашением о конфиденциальности (NDA).

Решение

Мы разработали десктоп-приложение, которое автоматически анализирует архив документов и выполняет поиск по запросу пользователя. Программа извлекает текст из файлов разных форматов, распознает содержимое сканированных документов и быстро находит нужную информацию во всем архиве.

Пользователь вводит поисковый запрос, после чего приложение показывает найденные совпадения.

Работа с разными форматами документов

Чтобы поиск охватывал весь архив, мы реализовали автоматическое извлечение текста из наиболее распространенных офисных форматов. Приложение обрабатывает документы Word, Excel и другие файлы независимо от их структуры и объема. Пользователю не нужно открывать каждый документ отдельно — поиск выполняется сразу по всему архиву.

Распознавание текста в PDF и сканах

Приложение поддерживает работу с PDF-документами двух типов:

  • PDF, содержащие текст;

  • сканированные документы, где текст представлен в виде изображения.

Для обычных PDF выполняется извлечение текста, а для сканов применяется OCR-распознавание.

Гибкий поиск данных

На практике сотрудникам часто требуется искать документы не по одному, а сразу по нескольким ключевым словам. Мы учли это в системе. Например, можно найти документы, где одновременно встречаются слова «амортизация» и «транспорт», либо получить список файлов, содержащих хотя бы одно из указанных слов.

Такой подход позволяет выбирать между более точным и более широким поиском в зависимости от задачи.

Пользователь может задавать условия поиска для более точного результата.

Результат

Проект разработки ПО для распознавания текста и поиска данных в архиве документов был реализован за 3 недели. После передачи установочного файла заказчик оперативно запустил опытную эксплуатацию на реальных данных. Замечаний по работе системы не возникло.

После внедрения решения заказчик получил:

  • безопасность конфиденциальной информации благодаря тому, что анализ документов происходит внутри ИТ-контура компании;

  • сокращение трудозатрат на обработку данных и поиск информации благодаря гибкому поиску данных;

  • уменьшение затрат благодаря внедрению собственного программного обеспечения вместо подписок и лицензий на готовое.

Комментарий агентства

Анастасия Осипова
Анастасия Осипова

Проектный менеджер

Многие компании рассматривают покупку готового программного обеспечения как самый быстрый путь решения задачи. Однако зачастую выгоднее один раз создать решение под свои задачи, чем годами оплачивать лицензии за универсальный продукт с избыточным функционалом, одновременно снижая риски, связанные с передачей чувствительной информации во внешние системы. Опытная команда разработки поможет оценить оба сценария и выбрать вариант, который будет выгоден не только сегодня, но и через несколько лет эксплуатации.


Оцените кейс
Спасибо за оценку
Выскажите мнение
Авторизуйтесь, чтобы добавить свой комментарий.
оставить заявку

Хотите заказать похожий проект?

СофтЭксперт с удовольствием обсудит вашу задачу

Оставить заявку