Инновационное самообучение: создание умной аудиозаписной системы | 18 июня 2026 года, 04:47

Сделал очень крутую штуку для себя. Запускаю программу, она включает микрофон и слушает. Я переключаюсь скажем в браузер, комментирую то, что вижу на экране, периодически нажимая на хоткей для снятия скриншота. В это время моя программа делает транскрипт моих комментариев с привязкой ко времени, сохраняет скриншоты тоже с привязкой ко времени, дальше она распознает скриншоты, вытаскивая оттуда то, как пишутся те или иные слова, бренды, идентификаторы, имена людей, для того, чтобы потом транскрипт моей речи преобразовать в корректный текст. И все это — локальные модели, запущенные на моем ноутбуке, то есть, абсолютно бесплатно.

После того, как я закончу разговаривать с компьютером, я запускаю обработку транскрипта, которая берет на вход сырой транскрипт и распознанные в текст скриншоты и выдает обработанный транскрипт, который выглядит уже достойно (тут уже используется Gemini API). Можно даже следующим шагом сделать автоматическое вырезание из скриншотов фрагментов, о которых шла речь, и вставка их в текст в то место, где о них упоминали.

Или вот я могу просто включить видео на колонки и программа тут же мне делает вот такой транскрипт. Загуглите в ютьюбе видео «Angular HttpClient Under The Hood. Design Patterns & Source Code Overview» с 3:51 — я просто поставил его на пару минут на автомат, а затем остановил свой скрипт.

Оставить комментарий