Workspace Digital Awards 2025 — престижнейшая международная премия в сфере диджитал. Принять участие!
Doubletapp
Doubletapp Meeting Notes: бот для саммаризации видео и аудио с помощью LLM
Doubletapp
WDA
2024
#Разработка чат-ботов#Разработка программного обеспечения

Doubletapp Meeting Notes: бот для саммаризации видео и аудио с помощью LLM

3096 
Doubletapp
Doubletapp Россия, Екатеринбург
Поделиться:
Клиент

Doubletapp

Сфера

Программное обеспечение

Регион

Россия, Екатеринбург

Сдано

Октябрь 2023

Задача

ML-отдел Doubletapp разработал бота-расшифровщика для решения наших рабочих задач: сотрудники и клиенты Doubletapp живут по всему миру и нам необходим инструмент, чтобы расшифровывать созвоны, переводить длинные обсуждения в короткие сводки, по горячим следам фиксировать результаты и закреплять договоренности.

Когда мы готовились к Agency Growth Day, то поняли, что можем продемонстрировать участникам, какую пользу приносит наш продукт, помочь им не потеряться в информационном потоке и получить максимум пользы от конференции. СЕО Doubletapp Сергей Анчутин предложил организаторам публиковать в телеграм-каналах конференции актуальные митинг ноутс выступлений: так те, кто присутствует на мероприятии, могут более предметно пообщаться с докладчиками, опираясь на тезисы их выступлений, а после — освежить в памяти важные моменты. Те же, кто не смог приехать или не следил за трансляцией непрерывно, получат краткие конспекты и смогут выборочно изучить то, что их заинтересовало.

Мы получили задачу подготовить и выпустить краткие сводки по шести докладам, намеченным на первую часть мероприятия, а последующие обсуждения с большим количеством разноголосых участников (и не всегда с микрофонами) решили обработать по возможности. Но бот обсчитывал все быстро и без сбоев, поэтому мы продолжили работу и подготовили еще шесть сводок — по презентациям участников разборов и по обсуждениям экспертов.

Решение

1Процесс

Работы над продуктом начались в апреле 2023 года. Мы изучили имеющиеся на рынке инструменты — они плохо работали с русскоязычным контентом, поэтому начали разрабатывать собственное решение для использования во внутренних процессах. Когда началась подготовка к конференции, работы вышли на финишную прямую. Бот задуман с большим запасом прочности: запросы обрабатываются асинхронно (с заделом на множество одновременных обращений), а технологии подобраны так, чтобы обрабатывать одновременно большие файлы — до 2 Гб (ограничение Телеграм).

Бот-расшифровщик работает на основе трёх нейросетей:

1) Диаризация (определяем, сколько человек говорит, и детектируем реплики каждого). На этом этапе используем нейросеть, развернутую на нашем сервере.

2) Транскрибация (перевод устной речи в текст). На этом этапе работает Whisper (бесплатная система распознавания речи от OpenAI) — для решения задачи в общем случае ничего сейчас лучше в мире нет, плюс ее реально дообучать для каких-то специфических кейсов. Whisper можно разворачивать у себя, можно платить за API у сервисов, где он уже развернут.

3) Митинг ноутсы / краткое содержание. Используем GPT-4, тут большую роль играет промпт-инжиниринг — мы на имеющемся API подбираем такие запросы, чтобы задача решалась лучше всего.

Чтобы максимально ускорить работу, реализовали параллельную обработку больших файлов и исключили, где можно, некоторые шаги — та же диаризация при одном спикере не нужна, некоторые аудиофайлы конвертировать не нужно и т. п.

Для подключения монетизации пришлось создавать собственные решения. Поскольку в Pyrogram (библиотеке для создания Telegram-ботов) нет готовых методов для платежей, то пришлось их писать самостоятельно с тем, что предоставляет эта библиотека.

Результат

В итоге за 7 часов мероприятия мы обработали 12 выступлений длительностью от 8 до 49 минут. Среднее время на обсчет — около 15 мин, самый короткий файл обработали за 8 мин., самый длинный — за 28 мин. Вес файлов — от 14,7 Мб до 401 Мб. Сбоев 0.

Конспекты, подготовленные ботом, организаторы включили в рассылку для участников вместе с фотографиями и презентациями спикеров.

После выступления нашего СЕО и объявления в каналах конференции ботом воспользовались 47 человек, мы получили несколько предложений о сотрудничестве. Например, сейчас занимаемся доработкой бота для нужд клиента (мы добавили удобные ему форматы файлов для заливки) — к нам обратился заказчик, который занимается приложениями и сайтами для коммерческой медицины в Екатеринбурге. Компании нужен такой электронный секретарь для протоколирования заседаний — ранее использовали диктофонные записи и привлекали сотрудника-расшифровщика, а теперь могут более рационально использовать человеческие ресурсы. Дополнительным плюсом в нашу пользу послужило и то, что файлы, которые загружает заказчик, доступны только ему — обрабатывать можно конфиденциальную информацию.

Мы готовы совершенствовать продукт вместе с заинтересованным заказчиком для решения его бизнес-задач. Сейчас разрабатываем поисковый инструментарий по загруженным файлам и решения для подключения бота непосредственно к созвонам в Zoom или Google Meet, чтобы получать результат сразу же после окончания звонка.

Комментарий агентства

Сергей Анчутин
Сергей Анчутин

Генеральный директор (CEO)

«Текущее решение — быстрое MVP, которое мы используем внутри компании уже полгода и которое быстро адаптировали под формат конференций, чтобы запустить волну обсуждений и знакомств на мероприятии.
И в целом, если давать советы, то лучше для быстрых решений и проверки гипотез использовать максимально готовое, тратя меньше времени на кишки и больше — на суть продукта. А когда уже нужно будет улучшать качество, тогда делать дообучение и кастомные нейросети, либо, когда запросов будет много и это будет дорого.
И попробуйте бесплатно нашего бота https://t.me/doubletapp_meeting_notes_bot.»

https://t.me/doubletapp_meeting_notes_bot
Выскажите мнение
Авторизуйтесь, чтобы добавить свой комментарий.
оставить заявку

Хотите заказать похожий проект?

Doubletapp с удовольствием обсудит вашу задачу

Оставить заявку