Разработка B2B SaaS: PDF/DOCX → AI-извлечение → проверка человеком → XML по XSD
1. Суть продукта:
Пользователь загружает PDF или DOCX пояснительной записки.
Система извлекает из документа нужные данные.
Пользователь видит найденные значения, источник каждого значения в документе, подтверждает или исправляет их.
После проверки система программно собирает XML по заданной XSD-схеме.
XML должен проходить XSD-валидацию.
Важно: нейросеть не должна свободно генерировать XML.
AI используется только для извлечения и классификации данных.
XML должен собираться детерминированным кодом по проверенным данным.
3. Что нужно получить на выходе
Нужен работающий MVP, в котором можно:
создать организацию/пользователя;
создать проект;
загрузить PDF/DOCX;
извлечь данные;
проверить данные вручную;
сгенерировать XML;
проверить XML по XSD;
скачать итоговый XML.
4. Что прошу оценить
Прошу прислать:
ориентировочную стоимость MVP;
срок разработки;
оценку в часах;
состав команды;
ставку специалистов;
что войдёт в первую версию;
что лучше вынести во вторую очередь;
основные технические риски;
какие данные нужны для точной оценки;
были ли у вас похожие проекты: PDF/OCR/document AI/XML/XSD/SaaS/ЭДО.
5. Отдельно прошу оценить два варианта
Вариант А — минимальный MVP:
PDF/DOCX → извлечение данных → ручная проверка → XML → XSD-валидация.
Без биллинга, Диадока, ЮKassa, сложного multi-tenant.
Вариант Б — коммерческий SaaS:
Всё из варианта А + личные кабинеты организаций, multi-tenant, биллинг, Диадок, DaData, роли пользователей, мониторинг.
6. Важные требования:
исходный код и репозиторий передаются заказчику;
XML генерируется кодом, не LLM;
ошибки XSD-валидации должны быть понятны пользователю;
каждый извлечённый факт должен иметь ссылку на место в исходном документе;
Связаться с организатором тендера можно будет сразу после отклика.
Этот тендер организован заказчиком из Нижнего Новгорода.
Интересно узнать какие есть crm-разработчики в Нижнем Новгороде?
Найдите их на интерактивной карте.