AI по губам: новый шаг в распознавании речи? | 17 января 2017 года, 23:35

Сегодня ехал из DC, и по дороге подумал, а что ж никто не делает распознавание речи по губам? Остановился, отправил себе с мобильника на почту напоминалку. Сейчас, уже дома, погуглил и нашел, что тема свежая, а результаты – впечатляющие. Утверждают, что у нейросети LipNet достигаемая точность распознавания – 93.4%. На видео показаны голосовые команды при включенном на полную катушку радио, с разными водителями. Другое видео о Lipnet показывает, что распознается неплохо даже набор коротких слов, а не цельное предложение. Если оно и правда так хорошо работает, то стоит ожидать эту систему как дополнение к распознаванию речи для повышения точности. Для дочитавших до этого места – нашел интересный обстоятельный труд на эту тему: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.453.7204&rep=rep1&type=pdf

Интересно, что теоретически все эти AI системы можно тренировать на видосах, которых уже немерянно. Скормил ему ютьюб с лицами, и жди результатов.

https://www.youtube.com/watch?v=YTkqA189pzQ

Оставьте комментарий