Я когда-то экспериментировал на Форуме Технологий Mail.Ru с расшифровкой докладов в текст near realtime. Работали несколько операторов в параллель над кусочками видео, а потом эти кусочки собирались вместе.
Сейчас смотрю CNN, а там в реальном времени идут титры. Как они их делают? Пошел искать в сеть, и, оказывается, уже пятьдесят лет существуют стенотайпы – клавиатуры+ПО для перевода в текст живой речи. И справляется один оператор.
Основное применение стенотайпов – в судах. По ссылке – очень интересное видео о том, как на этом стенотайпе набирать текст. Уверен, то, как вы предполагаете, не совпадет с тем, как оно на самом деле.
