#Разработка сайтов под ключ #Разработка программного обеспечения #ИИ и нейросети

AI-воронка квалификации B2B-лидов: парсинг → фильтр → LLM-анализ → веб-воронка

ЮЛИУ ПАНТЯ Россия, Тюмень

Поделиться: 0 0 0

AI-воронка квалификации B2B-лидов: парсинг → фильтр → LLM-анализ → веб-воронка

Бюджет

200 000

Сфера

Информационные технологии и интернет

Тип сайта

Корпоративный сайт

Сдано

Май 2026

Задача

Нужен инструмент, который сам находит релевантные B2B-задачи в открытых источниках: парсит Telegram-агрегаторы и веб-площадки проектной работы, отсекает нерелевантное, оценивает каждый подходящий лид и складывает в управляемую воронку — чтобы не просматривать сотни объявлений вручную.

Построен как внутренний production-инструмент Cipher Workshop. Показываем как доказательство владения архитектурой «парсинг → фильтрация → LLM-анализ → веб-воронка».

Решение

Ежечасный pipeline на Python:

• Сбор: Telethon читает Telegram-ботов-агрегаторов, Playwright парсит 5 веб-площадок; клик по inline-кнопкам разворачивает реальный URL заказа.

• Фильтрация: правила профиля (ICP-ключи → pass, стоп-слова → block, иначе → ручной разбор) отсекают шум до дорогого LLM-вызова.

• LLM-анализ: каждый прошедший лид прогоняется через Claude (Opus 4.7 / Sonnet 4.6) для структурированной оценки — вердикт, аргументы за/против, черновик отклика; альтернативный backend через Claude CLI без API-ключа.

• Публикация: статическая HTML-воронка со статусами и идемпотентным апдейтом, локальный сервер на 127.0.0.1.

• Автоматизация: GitHub Actions, cron 4×/час, idempotency-guard, commit-back результатов.

• Стек: Python 3.12, Telethon, Playwright, Anthropic Claude, JSONL-стрим, GitHub Actions.

Результат

Система в продакшене, работает автономно по расписанию и ежечасно пополняет воронку квалифицированными лидами из 5+ источников. Самообучающиеся правила фильтрации снижают долю шума: нецелевые типы (чужой стек, не-dev роли, маркетинг) отсекаются на этапе классификатора ещё до LLM. Точность отбора заложена как критический атрибут — с метриками качества, чтобы воронка не превращалась в поток нерелевантного.

ЮЛИУ ПАНТЯ

Россия Тюмень

Ключевое решение — двухступенчатый фильтр: дешёвые детерминированные правила отсекают явный шум, и только то, что прошло, попадает на дорогой LLM-анализ контекста. Это держит расход на Claude под контролем при потоке с 5+ площадок.
Правила не самообучаемые — мы дорабатываем их вручную по разбору ложных срабатываний: каждый ошибочно пропущенный или отклонённый лид превращается в новое правило. Инструмент работает в проде на cron 4 раза в час и реально экономит нам время на ручной разбор заявок.