#ИИ и нейросети

Собрали ИИ для проверки сайтов, нашли ошибку, скрывавшую полсайта от поиска.

АЙТИФОКС Россия, Сочи

Поделиться: 0 0 0

Клиент

АЙТИФОКС

Бюджет

Сфера

Информационные технологии и интернет

Регион

Россия, Сочи

Сдано

Июнь 2026

Задача

Мы — ИТ-компания из Сочи, развивающая собственный корпоративный сайт с материалами на русском и английском: десятки статей, историй, описаний услуг. Всё шло своим чередом, пока с 1 марта 2026 года в России не вступил в силу закон об ограничении иностранных слов.

До закона мы спокойно использовали заимствования — это было привычно и удобно. Иностранные названия компаний и вовсе никто не трогал. Теперь за использование слов не из разрешённого перечня — штраф. При этом есть нюанс: часть заимствований использовать можно, если у них нет устоявшегося аналога в русском языке. Но чёткого списка разрешённого и запрещённого долго не было, каждый трактовал закон по-своему, и информация в команде гуляла противоречивая. На сайте больше сотни страниц. Где искать эти заимствования? Как ничего не пропустить? Ручная вычитка такого объёма — это гарантированно пропущенная ошибка, потому что на сотой странице глаз уже не тот. Нам нужно было уменьшение человеческого фактора там, где оно критически влияет на риски для бизнеса.

Изначально всё выглядело гораздо проще. Мы пришли к тестировщикам с запросом: проверить сайт на заимствования в связи с новым законом. Никакой орфографии, никакой грамматики — только найти иностранные слова, которых быть не должно. Это подавалось как разовая акция: один раз проверили, отдали список — и всё.

Тестировщики выгрузили с сайта весь текст и прогнали его через сервисы, которые определяют иностранные слова. Таких сервисов в интернете много, и с задачей они справляются. Довольно быстро собрали перечень заимствований, отправили нам — и на этом, казалось бы, всё.

Но почти сразу мы вернулись с новыми вводными. Теперь нужно было проверять не только заимствования, но и орфографию, грамматику, пробелы, интервалы, знаки препинания. А главное — это должна была быть не разовая акция, а постоянная проверка. Чтобы не мы дёргали тестировщиков каждый раз, а система работала сама по расписанию.

Так появилась задача: быстро, без внешних подрядчиков и платных лицензий сделать инструмент для ии проверки сайта. Не разовую акцию, а систему, которая будет работать как часы: регулярно обходить сайт, выискивать запрещённые слова, орфографию и грамматику, и присылать готовый отчёт. Чтобы человек не тратил дни на механическую работу, а просто открывал отчёт и принимал решения.

Решение

Тестировщик сел за ресёрч: нужно было найти инструмент, который умеет всё это делать, и написать сценарий для автоматизации. Он выбрал ЛэнгвичТул — открытый сервис, который проверяет текст на орфографию, грамматику и стилистику, — и написал сценарий на Пайтоне с использованием создания кода с помощью ИИ. Сценарий брал карту сайта, обходил страницы и прогонял текст через ЛэнгвичТул.

На старте мы упёрлись в неожиданную стену. Когда впервые запустили сценарий, он работал подозрительно долго, а потом выдал всего 30 страниц при проверке. На сайте у нас их около сотни — если считать все ссылки, все истории, все описания услуг, получается примерно 100–103 страницы. А тут тридцать. Мы грешили на код, на программный интерфейс, на что угодно.

Сценарий имитирует работу робота, который обходит сайт и ищет ссылки на страницы. Мы попробовали дать ему ссылки напрямую — он их не видел. Попробовали иначе — снова мимо. Пошли с проблемой к команде фронтенда. И вот тут выяснилось то, о чём никто не подозревал.

После недавнего обновления сайта часть страниц оказалась доступна только по клику в браузерном скрипте, а не по прямой ссылке. Где-то на этапе выкатки не довернули до конца, и страницы выпали из видимости для роботов. Для обычного посетителя всё работало нормально: зашёл, кликнул по меню, увидел контент. Но поисковик кликать не умеет — он идёт по ссылкам. А раз прямой ссылки нет, то и страницы для него не существует.

Автоматическая проверка сайта помогла поймать этот баг. Мы отправили задачу команде фронтенда, они поправили логику отображения и выкатили обновление. После этого снова запустили сценарий — и он впервые увидел все 103 страницы. Так рядовая проверка на англицизмы заодно вернула сайту недостающую индексацию.

Дальше началась итерационная доработка.

Мы запустили первую версию и увидели, что ЛэнгвичТул ругается на заголовки без точек в конце. У нас на сайте заголовки статей и подзаголовки идут без точек — это стандарт вёрстки. А сервис считал это ошибкой и выдавал: «У вас здесь не хватает точки, это неправильно». Мы добавили правило-исключение: если текст является заголовком, точка не нужна. Настроили — ошибки ушли.

Первая версия отчёта была неудобной. Слова выдавались списком, без привязки к страницам, без аналитики. Мы попросили доработать: сделали отдельную страницу с аналитикой, где видно, какое слово на какой странице встречается, сколько всего уникальных заимствований найдено, какие ошибки повторяются чаще всего. Всё для того, чтобы человеку не нужно было разбираться в сырых данных. Открыл — увидел — принял решение.

Ещё один важный момент: белый список разрешённых слов. Есть заимствования, которые использовать можно — у них нет устоявшегося аналога в русском языке. Мы собрали такой список и внесли его в сценарий. Теперь эти слова просто пропускаются и не попадают в отчёт как ошибки. Если завтра появится новый список разрешённых слов — мы просто добавим его, и система перестанет на них ругаться.

Сам сценарий написан с использованием создания кода с помощью ИИ. Тестировщик описывал желаемую логику: «Вот так должен работать обход, вот так должен выглядеть отчёт, вот такие исключения нужно добавить». Нейросеть генерировала код, который тут же проверялся на реальных данных. За счёт этого весь прототип собрали за день. Автоматизация ии разработки позволила не отвлекать серверную команду на раннем этапе и сосредоточиться на главном — точности проверки.

Но есть особенность. Нейросеть не знает всех тонкостей и не прибирает за собой. Она дописывает новый код поверх старого, не удаляя неиспользуемое. Кодовая база быстро распухает. Мы прошли через несколько итераций: сначала написали один запрос — нейросеть выдала результат, мы проверили — не подходит, добавили правки — проверили снова. Каждая итерация делала отчёт удобнее и точнее.

Управление всей логикой — на Пайтоне. Модели для анализа — открытый интерфейс ЛэнгвичТул. Никаких платных лицензий, никаких внешних подрядчиков. Всё работает на бесплатных инструментах.

Отдельно — про человеческий фактор. Мы не обещаем стопроцентной точности, это технологически невозможно. Система не идеальна, она иногда ошибается: может пропустить ошибку, может отметить правильное слово как неправильное. Поэтому в нашем конвейере есть страховочный пояс — человек. Он открывает отчёт и просматривает находки: вот тут действительно ошибка — исправить, вот тут ложное срабатывание — пропустить, а вот это слово у нас разрешено — внести в белый список. Пара кликов — и сайт чист.

Сейчас мы закладываем встройку в серверную часть. Периодическая задача будет заходить в папку проекта, запускать сценарий, ждать 10 минут, пока он отработает, и отправлять готовый отчёт на почту ответственному сотруднику. Раз в месяц — автоматически, без напоминаний и ручного запуска. Уменьшение человеческого фактора начинает работать на постоянной основе.

Результат

103 страницы проверяются за 10 минут. Наша команда авторов, которая внутренне готовилась к неделям ручной вычитки, выдохнула. Мы ожидали, что машина отловит процентов 70 ошибок — этого уже было бы достаточно. По факту точность и полнота проверки оказались значительно выше ожиданий.

Разница с ручной вычиткой колоссальная. Раньше нужно было открыть каждую из 103 страниц и прочитать её целиком, всматриваясь в каждое слово, каждый знак препинания, каждый пробел. На сотой странице глаз замыливается, внимание рассеивается — и ошибка уходит в продакшен. Теперь человек открывает готовый список находок и принимает решение по каждой. Это семь ошибок, которые нужно проверить на адекватность, а не 103 страницы, которые нужно вычитать от корки до корки. На ручную вычитку ушли бы дни, здесь — минуты на принятие решений.

Попутно мы починили видимость сайта для поисковиков. Материалы, которые годами не индексировались, снова доступны. Это и есть уменьшение человеческого фактора в действии: человек не вычитывает 103 страницы, не обходит сайт как робот, не пытается угадать, где спряталась ошибка. Он получает готовый структурированный отчёт и точечно правит найденное. Рутина ушла, риски остались под контролем.

Отдельно стоит сказать про бюджет. Весь проект сделан на полностью бесплатных инструментах. ЛэнгвичТул — бесплатный, Пайтон — открытый язык, создание кода через нейросеть — тоже без дополнительных затрат. При нашем объёме страниц бесплатной версии хватает. Мы принципиально хотели проверить: можно ли решить задачу без платных лицензий и внешних подрядчиков. Оказалось — можно. Весь проект реализован силами одного тестировщика за день.

Механика не привязана к заимствованиям или конкретному рынку. Та же связка «обход сайта + лингвистический анализ + отчёт» работает для наблюдения за терминологией бренда, требованиями поисковиков, обновлением контента после смены названия компании. ЛэнгвичТул поддерживает десятки языков — инструмент можно приспособить под законы любой страны. Масштабирование на другие задачи — вопрос адаптации словарей и правил проверки.

Если вам нужна ии проверка сайта, которая снимет риски, уберёт рутину и попутно проверит техническое здоровье проекта — оставляйте заявку. Мы собираем такие инструменты за 1 день.

Ссылка на проект

https://itfox-web.ru/ru/cases/avtomatizirovali-proverku-saita-na-inostrannye-slova-s-pomoshchiu-ii-u?utm_source=workspace&utm_medium=referral

Стек технологий

Python Язык программирования

Собрали ИИ для проверки сайтов, нашли ошибку, скрывавшую полсайта от поиска.

Задача

Решение

Результат

Стек технологий

Хотите заказать похожий проект?

Переход на внешний сайт