Интересно, почему все программы распознавания текста из голоса не пытаются определить тему и подгрузить термины, свойственные этой теме? Вот идет разговор про условно лошадей. Подгрузи словарь с терминами, лошадиными брендами, типичными кличками, названиями ипподромов или что там еще, и проверни распознавание еще раз, используя термины из этого словаря с большим весом, чем термины, скажем, из айти или кулинарии. Понять, что речь идет о лошадях из текста AI уже давно может. А вот приспосабливаться не может.
Ну или вот взять распознавание в Teams. Майкрософт, у вас гигабайты сообщений из чатов и групп есть. Уж очевидно, что примерно те же слова будут звучать в аудио. Почему бы не составить словарик из таких слов, и не загрузить в систему распознавания голоса, чтобы записи расшифровывались более корректно? Я уже не говорю о том, что один и тот же человек пишет и говорит голосом в целом на одну и ту же тему. Если вот прям его сообщения взять для словарика и применять словарик к репликам, которые произносит он, и во вторую очередь к тем, кто на колле, то вообще будет ж прекрасно.
Можно подумать, как улучшать существующие распознавания. Типа за неделю копим знания как звучит, скажем, Medik8, и как пишется (из чатов), и затем все неправильно распознанные medicate меняем на Medik8 в прошлых митингах (и чтобы поиск работал уже с учетом изменений). Понимание, что это неправильно распознано, нетривиально для машины, но все-таки возможно, так как слово medicate будет явно грамматически не подходить, в отличие от Medik8
Должен появиться нормальный стартап, который интегрируется с мессенджерами и приложениями для встреч, и вот все это делает по уму, беря какие-то деньги. Если бы все внутренние встречи расшифровывались (нормально! с репликами, именами, учетом тематики) и по этому был единый поиск с учетом прав доступа (искать можно только по митингам, где ты приглашен), то это был бы супертул.
