Онлайн сурдопереводчик

1595

Зазекс Россия, Ростов-на-Дону

Поделиться: 0 0 0

Клиент

NDA

Сфера

Информационные технологии и интернет

Регион

Россия

Сдано

Январь 2022

Задача

Разработать AI-алгоритм, который конвертирует видео человека, говорящего на языке жестов, в текстовый формат.

Решение

Последние успехи наших специалистов в области компьютерного зрения дают возможность воплотить в жизнь идею беспрепятственного общения и обмена знаниями для людей с ограничениями по слуху или речи.

Распознавание слов языка жестов осуществляется по алгоритму:

Получение информации о пространственном положении частей тела с помощью

модели MediaPipe Holistic. Модель получает на вход изображение, осуществляет поиск людей на этом изображении и строит скелет человека по точкам в трёхмерном пространстве.

Подготовка информации. Первичная информация позволяет определять слова,

но из-за огромной вариативности движений в трёхмерном пространстве, это возможно только для очень ограниченного числа слов. Результатом выполнения преобразований над первичной информацией является вектор, содержащий максимальное количество полезной информации (для одного кадра видео) в минимальном объёме.

Распознавание слов языка жестов осуществляется по набору векторов.

Один вектор характеризует положение частей тела человека на одном кадре видео.

Расширенный text-to-speech и speech-to-text методами, алгоритм способен осуществляет перевод:

голос в текст;

текст в голос;

язык жестов в текст;

язык жестов в голос.

В языке жестов отсутствуют знаки препинания и любые другие компоненты, которые могли бы указывать на то что один жест закончился и начался другой. Поэтому для распознавания слов необходимо было решить задачу поиска начала и конца слова на непрерывном временном ряду. Для этого был разработан алгоритм скользящего окна (Windowing method), который по набору множества предыдущих слов может прогнозировать следующее.

Алгоритм реализован для 2 языков: русский и английский.