Удивительно, что никто не создал автосубтитры для видеозвонков как плагин к скайпу или к другому софту конференс-коллов. Кроме того, что для этого есть огромный рынок слабослышащих или глухих, которые не могут воспринимать аудио, но могут читать субтитры, есть еще потребность иметь транскрипт к звонкам для быстрого поиска. При этом расшифровывать голос нужно с каждого участника отдельно, чтобы одновременные или перескающиеся реплики друг другу не мешали. Теоретически это можно сделать и отложенно после звонка, но там уже голоса сводятся в одну кучу, и качество будет ниже.
Для корпораций можно обучать рекогнайзер специфичным терминам, чтобы он на них не спотыкался. Накопленная база для более качественного распознавания может быть даже шариться с другими компаниями на том же рынке, если клиент соглашается делиться.
Следующим шагом будет распознавание языка жестов и движений губ тем же скайпом для улучшения качества распознавания речи (если она есть) или жестов (если они есть).
