Ищете крутые кейсы в digital? Посмотрите на номинантов Workspace Digital Awards 2026!
Веб-разработка

Что скрывается в корпоративном архиве: как найти персональные данные там, где их не должно быть

64 
 

Персональные данные — чувствительная зона для бизнеса

Для бизнеса персональные данные клиентов — это не только вопрос соответствия внутренним регламентам и требованиям законодательства, но и часть базовой информационной безопасности. Компания должна понимать, где хранятся чувствительные документы, кто имеет к ним доступ и не попадают ли они в системы, где их быть не должно.

На практике эта задача не всегда решается идеально. В крупных организациях годами накапливаются архивы, выгрузки, вложения из CRM, документы после миграций, старые папки на серверах. В таких массивах нередко оказываются не только полезные рабочие материалы, но и файлы с персональными данными — например, сканы или фотографии паспортов.

Именно с такой задачей команда ARTW работала для одного из клиентов из телеком-отрасли.

Что было у клиента

У компании накопился исторический  архив неструктурированных файлов объемом около 80 ГБ — это примерно 30 000 документов. Если перевести масштаб в более наглядную форму, речь идет о массиве, сопоставимым с библиотекой из 100-120 бумажных книг..

Это не тот объем, который можно быстро просмотреть вручную. Тем более что архив собирался годами, а документы попадали туда в разное время, из разных источников и в разных форматах. Среди полезных файлов могли находиться и те, которых в архиве быть не должно — в частности, документы с персональными данными.

Задача была прикладной: найти такие файлы и подготовить архив к очистке.

Почему ручная проверка здесь не работает

На первый взгляд решение кажется очевидным: открыть документы, просмотреть их и выделить подозрительные. Но при объеме в 30 000 файлов такой подход становится слишком дорогим и медленным.

Даже если заложить всего 30–60 секунд на первичную проверку одного документа, без пауз, переключений между папками и повторных просмотров, получится от 250 до 500 часов работы. Это примерно от 31 до 62 рабочих дней одного специалиста при восьмичасовом графике. А если часть файлов нужно открывать в разных программах, увеличивать, листать, перепроверять или передавать на повторную оценку, реальный срок будет еще выше.

Кроме того, в подобных архивах файлы редко выглядят аккуратно и предсказуемо. Они могут храниться в pdf, jpg,png и других форматах, лежать в глубоко вложенных папках и не содержать явных признаков в имени файла. Часть документов может быть плохого качества: размытые сканы, пережатые изображения, фотографии под углом, частично обрезанные страницы.

В результате ручная проверка становится не только долгой, но и ненадежной: что-то обязательно будет пропущено.

Почему нельзя просто прогнать весь архив через технологию оптического распознавания текста

Один из самых очевидных сценариев — использовать  технологию оптического распознавания текста OCR, которая позволяет извлекать текст из изображений, сканов и PDF-документов. Проще говоря, эта технология помогает «прочитать» то, что обычный файловый поиск не видит.

Но если просто отправить весь архив на сплошное распознавание, быстро выясняется, что такой путь не самый эффективный. На средней машине обработка одного документа может занимать до минуты. Если умножить это на 30 000 файлов, получаются десятки тысяч минут машинного времени.

Кроме того, далеко не каждый документ вообще стоит отправлять в тяжелую обработку. А в реальной жизни одного OCR тоже часто недостаточно: если документ обрезан, размыт или плохо сфотографирован, простое распознавание текста работает хуже.

Как команда ARTW подошла к задаче

Для проекта команда ARTW собрала локальный контур анализа. Это было важно и с точки зрения безопасности: при работе с персональными данными такие задачи лучше решать аккуратно и в контролируемой среде.

В основе решения использовалась связка из нескольких подходов: ИИ, vLLM, OCR, анализ изображений и поиск характерных признаков документа. ИИ здесь не был «волшебной кнопкой», которая все делает сама. Скорее это был практический инструмент в составе конвейера, который помогал анализировать большой массив файлов и выделять документы с признаками персональных данных.

Команда не пошла по пути сплошной обработки всего архива. Вместо этого была выстроена многоступенчатая схема, где ресурсоемкие этапы включались только там, где это действительно нужно.

Как удалось снизить нагрузку

Первый шаг — отсечение лишнего. Если файл по типу и структуре заведомо не подходил под нужную категорию документов, его не отправляли в дорогую обработку.


Разместите
тендер бесплатно

Наша система сама подберет вам исполнителей на услуги, связанные с разработкой сайта или приложения, поисковой оптимизацией, контекстной рекламой, маркетингом, SMM и PR.

Заполнить заявку 13516 тендеров
проведено за восемь лет работы нашего сайта.


Второй шаг — предварительная подготовка изображений. Для задачи поиска признаков паспорта не всегда требуется исходное изображение в максимальном качестве. Если цель — понять, есть ли в документе характерные признаки, его можно сначала уменьшить, усилить контраст, привести к более удобному виду для анализа. Такие операции занимают минимум времени, но позволяют заметно сократить нагрузку на следующие этапы.

Только после этого запускались более тяжелые операции: OCR, анализ визуальных признаков и сопоставление с типовыми шаблонами документов.

Почему проверка шла в несколько проходов

Система не пыталась одинаково обрабатывать все документы подряд. Это было бы слишком затратно и не дало бы лучшего результата.

Сначала архив проходили в быстром режиме и находили очевидные случаи — документы, которые хорошо читались и легко определялись. После этого они исключались из дальнейшей обработки.

Затем запускался второй, более внимательный проход по оставшимся файлам: там, где качество было хуже, признаки менее явными, а решение требовало более точного анализа.

Такой подход позволил одновременно ускорить обработку и повысить качество итоговой выборки.

Что делали со спорными файлами

В подобных проектах особенно важен вопрос ошибки. Если документ с персональными данными будет пропущен, это хуже, чем если в выборку попадет несколько лишних файлов на дополнительную проверку.

Поэтому спорные случаи не исключались автоматически. Если системе не хватало уверенности, документ отправлялся на ручную верификацию. По сути, все подозрительное попадало в отдельный контур проверки.

Для бизнеса это важный принцип: в задачах, связанных с персональными данными, безопаснее перепроверить сомнительный файл, чем пропустить его.

Что получил клиент на выходе

Главный результат проекта — не просто техническая модель, а управляемый рабочий процесс.

Вместо массива из 30 000 разнородных документов клиент получил список конкретных файлов, требующих внимания. Дальше с ними уже можно было работать в рамках внутренних процедур: проверять, переносить в защищенный контур, удалять из лишних систем, использовать как основу для дальнейшей очистки архива. Иными словами, проблема перестала быть хаотичной. Она стала понятной, измеримой и управляемой. Созданный программный продукт может переиспользоваться, а также выступать в роли входного фильтра для новых документов. 

Вывод

Этот кейс важен не только для телекома. Старые архивы, общие файловые хранилища, вложения из CRM и документы после миграций есть почти в любой крупной компании. А значит, риск накопления чувствительных данных в неподходящих местах — не исключение, а типовая бизнес-задача.

Главный вывод здесь в том, что проблема больших архивов почти никогда не решается вручную в разумные сроки. Даже очень грубая оценка показывает: первичная проверка массива в 30 000 документов может занять от одного до двух месяцев непрерывной работы специалиста. И это без гарантии, что все чувствительные файлы будут найдены.

Автоматизированный подход меняет саму экономику процесса. Он позволяет не просматривать вручную весь архив, а быстро сузить массив до действительно подозрительных документов и передать человеку только то, что требует финального решения. Для бизнеса это означает сразу несколько эффектов: снижение трудозатрат, уменьшение риска пропуска персональных данных, ускорение очистки архивов и появление контролируемого процесса там, где раньше был хаос.

Именно в этом практическая ценность ИИ для бизнеса: не в абстрактной «инновационности», а в способности решать задачи, которые при ручном подходе слишком долгие, дорогие и ненадежные.

Лучшее
Выскажите мнение
Авторизуйтесь, чтобы добавить свой комментарий.




65

Лучшие статьи

Поделиться: 0 0 0
Лайки за кейсы:  145 Подписчики:  3

Оцените статью
Спасибо за оценку