Сегодня ехал из DC, и по дороге подумал, а что ж никто не делает распознавание речи по губам? Остановился, отправил себе с мобильника на почту напоминалку. Сейчас, уже дома, погуглил и нашел, что тема свежая, а результаты – впечатляющие. Утверждают, что у нейросети LipNet достигаемая точность распознавания – 93.4%. На видео показаны голосовые команды при включенном на полную катушку радио, с разными водителями. Другое видео о Lipnet показывает, что распознается неплохо даже набор коротких слов, а не цельное предложение. Если оно и правда так хорошо работает, то стоит ожидать эту систему как дополнение к распознаванию речи для повышения точности. Для дочитавших до этого места – нашел интересный обстоятельный труд на эту тему: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.453.7204&rep=rep1&type=pdf
Интересно, что теоретически все эти AI системы можно тренировать на видосах, которых уже немерянно. Скормил ему ютьюб с лицами, и жди результатов.
