Doubletapp
Программное обеспечение
Россия, Екатеринбург
Октябрь 2023
ML-отдел Doubletapp разработал бота-расшифровщика для решения наших рабочих задач: сотрудники и клиенты Doubletapp живут по всему миру и нам необходим инструмент, чтобы расшифровывать созвоны, переводить длинные обсуждения в короткие сводки, по горячим следам фиксировать результаты и закреплять договоренности.
Когда мы готовились к Agency Growth Day, то поняли, что можем продемонстрировать участникам, какую пользу приносит наш продукт, помочь им не потеряться в информационном потоке и получить максимум пользы от конференции. СЕО Doubletapp Сергей Анчутин предложил организаторам публиковать в телеграм-каналах конференции актуальные митинг ноутс выступлений: так те, кто присутствует на мероприятии, могут более предметно пообщаться с докладчиками, опираясь на тезисы их выступлений, а после — освежить в памяти важные моменты. Те же, кто не смог приехать или не следил за трансляцией непрерывно, получат краткие конспекты и смогут выборочно изучить то, что их заинтересовало.
Мы получили задачу подготовить и выпустить краткие сводки по шести докладам, намеченным на первую часть мероприятия, а последующие обсуждения с большим количеством разноголосых участников (и не всегда с микрофонами) решили обработать по возможности. Но бот обсчитывал все быстро и без сбоев, поэтому мы продолжили работу и подготовили еще шесть сводок — по презентациям участников разборов и по обсуждениям экспертов.
Работы над продуктом начались в апреле 2023 года. Мы изучили имеющиеся на рынке инструменты — они плохо работали с русскоязычным контентом, поэтому начали разрабатывать собственное решение для использования во внутренних процессах. Когда началась подготовка к конференции, работы вышли на финишную прямую. Бот задуман с большим запасом прочности: запросы обрабатываются асинхронно (с заделом на множество одновременных обращений), а технологии подобраны так, чтобы обрабатывать одновременно большие файлы — до 2 Гб (ограничение Телеграм).
Бот-расшифровщик работает на основе трёх нейросетей:
1) Диаризация (определяем, сколько человек говорит, и детектируем реплики каждого). На этом этапе используем нейросеть, развернутую на нашем сервере.
2) Транскрибация (перевод устной речи в текст). На этом этапе работает Whisper (бесплатная система распознавания речи от OpenAI) — для решения задачи в общем случае ничего сейчас лучше в мире нет, плюс ее реально дообучать для каких-то специфических кейсов. Whisper можно разворачивать у себя, можно платить за API у сервисов, где он уже развернут.
3) Митинг ноутсы / краткое содержание. Используем GPT-4, тут большую роль играет промпт-инжиниринг — мы на имеющемся API подбираем такие запросы, чтобы задача решалась лучше всего.
Чтобы максимально ускорить работу, реализовали параллельную обработку больших файлов и исключили, где можно, некоторые шаги — та же диаризация при одном спикере не нужна, некоторые аудиофайлы конвертировать не нужно и т. п.
Для подключения монетизации пришлось создавать собственные решения. Поскольку в Pyrogram (библиотеке для создания Telegram-ботов) нет готовых методов для платежей, то пришлось их писать самостоятельно с тем, что предоставляет эта библиотека.
В итоге за 7 часов мероприятия мы обработали 12 выступлений длительностью от 8 до 49 минут. Среднее время на обсчет — около 15 мин, самый короткий файл обработали за 8 мин., самый длинный — за 28 мин. Вес файлов — от 14,7 Мб до 401 Мб. Сбоев 0.
Конспекты, подготовленные ботом, организаторы включили в рассылку для участников вместе с фотографиями и презентациями спикеров.
После выступления нашего СЕО и объявления в каналах конференции ботом воспользовались 47 человек, мы получили несколько предложений о сотрудничестве. Например, сейчас занимаемся доработкой бота для нужд клиента (мы добавили удобные ему форматы файлов для заливки) — к нам обратился заказчик, который занимается приложениями и сайтами для коммерческой медицины в Екатеринбурге. Компании нужен такой электронный секретарь для протоколирования заседаний — ранее использовали диктофонные записи и привлекали сотрудника-расшифровщика, а теперь могут более рационально использовать человеческие ресурсы. Дополнительным плюсом в нашу пользу послужило и то, что файлы, которые загружает заказчик, доступны только ему — обрабатывать можно конфиденциальную информацию.
Мы готовы совершенствовать продукт вместе с заинтересованным заказчиком для решения его бизнес-задач. Сейчас разрабатываем поисковый инструментарий по загруженным файлам и решения для подключения бота непосредственно к созвонам в Zoom или Google Meet, чтобы получать результат сразу же после окончания звонка.
Сергей Анчутин
Генеральный директор (CEO)
«Текущее решение — быстрое MVP, которое мы используем внутри компании уже полгода и которое быстро адаптировали под формат конференций, чтобы запустить волну обсуждений и знакомств на мероприятии.
И в целом, если давать советы, то лучше для быстрых решений и проверки гипотез использовать максимально готовое, тратя меньше времени на кишки и больше — на суть продукта. А когда уже нужно будет улучшать качество, тогда делать дообучение и кастомные нейросети, либо, когда запросов будет много и это будет дорого.
И попробуйте бесплатно нашего бота https://t.me/doubletapp_meeting_notes_bot.»
Doubletapp с удовольствием обсудит вашу задачу