Несмотря на бурное развитие digital, основным форматом хранения новостных изданий остаётся PDF. Так проще сохранить красивую верстку и картинки.
Основная проблема PDF газет — скучные, статичные рекламные блоки. Редакции тратят много времени, чтобы вручную делать рекламу кликабельной: искать, где какие блоки, ставить ссылки. Это тяжело и долго. Но как автоматизировать процесс? Здесь на помощь приходит искусственный интеллект.
У нас в Технологике было несколько проектов по оцифровке западных и азиатских газет, а также по оживлению рекламных блоков. Хотим поделиться подходом, чтобы и наш рекламный рынок стал шире на один инструмент.
Всё начинается с того, что нейросеть учится отличать новости от рекламы. Зачем это нужно? Чтобы по каждой рекламе можно было узнать, кто её разместил и что именно предлагает, сопоставить с базой рекламодателей, а потом — быстро прописать ссылки прямо в PDF.
Как искусственный интеллект может оживить pdf-газеты?
Алгоритм тут следующий:
Главная трудность в этой задаче — отделить разные части газеты: статьи, объявления, картинки. Ведь с распознаванием текста справится уже почти любая LLM-модель.
Верстка нестандартная, структура меняется от номера к номеру, заголовков много — всё это усложняет задачу. Мы работали с газетами из разных стран и протестировали много способов. Вот три наиболее эффективных: от самого простого и экономичного до самого точного и более дорогого.
Искусственный интеллект может обнаруживать рекламные блоки в любых газетах на любых языках
Это самый простой и бюджетный подход, здесь мы применяем модель GPT-4o.
Сначала с помощью OCR вытаскиваем текст и его координаты, потом AI делит страницу на статьи и рекламу. Быстро, удобно, недорого, подходит для тестов и первых версий. Точность сегментации — примерно 85–90%, так что для сложных задач, требующих почти идеальной разметки, вроде рекламных блоков, необходимы другие подходы.
Второй подход строится на детальном выделении текстовых и графических блоков на странице с помощью современной модели сегментации (например, YOLOv8-seg).
Она ломает страницу на отдельные блоки, чтобы каждую статью и рекламу собрать по частям. Учитывает не только смысл текста (строим здесь семантические вектора), но и расположение на странице. Так мы получаем структурированный контент и высокую точность.
Третий подход предполагает применение предварительно обученной модели сегментации, способной сразу выделять на газетной странице целые статьи и рекламные блоки в единые объекты. Но это требует большого размеченного датасета, на котором такую модель можно обучить. Это дорого, но точно.
После обнаружения статей для каждой извлекается полный текст и рассчитывается семантический вектор. В результате мы получаем максимально точное обнаружение границ статей и рекламных блоков.
Наша система сама подберет вам исполнителей на услуги, связанные с разработкой сайта или приложения, поисковой оптимизацией, контекстной рекламой, маркетингом, SMM и PR.
Заполнить заявку
13201 тендер
проведено за восемь лет работы нашего сайта.
А дальше всё просто. Газету загружают в облако. AI-модель сама находит рекламу на любом макете. Другая AI-модель распознаёт текст, вытаскивает ссылки, телефоны, и адреса электронной почты из каждого объявления. Всё это становится кликабельным за минуты, если выпуск газеты современный.
В архивных выпусках ai-модель может сопоставить рекламные объявления с базой рекламодателей по выпуску. Это тоже достаточно просто и быстро.
Но если база рекламодателей не сохранилась и выпуски газет достаточно старые, эти места можно заново предложить купить рекламодателям — для них это новый шанс привлечь клиентов.
Алгоритм "оживления" рекламных блоков в pdf-газетах
На рекламу добавляются невидимые кликабельные зоны с ссылками, содержащими utm-метки — так можно понять, сколько людей перешли по объявлению и какие газеты дают лучший эффект.
В результате редакция получает интерактивный PDF. Новый выпуск обрабатывается за несколько минут, ошибок почти не бывает, все ссылки работают. Газета становится удобнее для читателей и даёт больше возможностей для рекламы, при этом дополнительного ручного труда не прибавляется, все делают нейросети.
Реальные данные от клиента по ускорению работы над рекламными блоками
Перспективы применения искусственного интеллекта в pdf-изданиях
Автоматизация рекламы в PDF-газетах даёт редакциям и рекламодателям больше возможностей, чем просто переход на цифровой формат. Это реальное преимущество на фоне конкурентов. Издание, где реклама становится интерактивной, сразу выглядит интереснее для бизнеса, и принять решение о размещении гораздо проще.
Технология легко работает не только в газетах, но и в журналах, дайджестах, каталогах, брошюрах или отчётах. Любой документ, где есть рекламные или информационные блоки, можно сделать удобным и интерактивным за минуты.
Интерактив можно постоянно расширять: добавить быструю покупку прямо в PDF, заявки на участие в мероприятии, онлайн-опросы, ссылки на соцсети или мессенджеры. PDF-документ перестаёт быть обычным файлом, он становится рабочим инструментом для бизнеса и читателей, развивается вместе с задачами рынка.
Время статичных PDF-изданий уходит. Их место занимает живой, гибкий канал, где реклама работает на результат, а читатели получают максимальное удобство. Описанный нами подход позволяет внедрить современные digital-функции быстро, без головной боли и вложений в собственные IT-команды.