Инновационное самообучение: создание умной аудиозаписной системы | 18 июня 2026 года, 04:47

Сделал очень крутую штуку для себя. Запускаю программу, она включает микрофон и слушает. Я переключаюсь скажем в браузер, комментирую то, что вижу на экране, периодически нажимая на хоткей для снятия скриншота. В это время моя программа делает транскрипт моих комментариев с привязкой ко времени, сохраняет скриншоты тоже с привязкой ко времени, дальше она распознает скриншоты, вытаскивая оттуда то, как пишутся те или иные слова, бренды, идентификаторы, имена людей, для того, чтобы потом транскрипт моей речи преобразовать в корректный текст. И все это — локальные модели, запущенные на моем ноутбуке, то есть, абсолютно бесплатно.

После того, как я закончу разговаривать с компьютером, я запускаю обработку транскрипта, которая берет на вход сырой транскрипт и распознанные в текст скриншоты и выдает обработанный транскрипт, который выглядит уже достойно (тут уже используется Gemini API). Можно даже следующим шагом сделать автоматическое вырезание из скриншотов фрагментов, о которых шла речь, и вставка их в текст в то место, где о них упоминали.

Или вот я могу просто включить видео на колонки и программа тут же мне делает вот такой транскрипт. Загуглите в ютьюбе видео «Angular HttpClient Under The Hood. Design Patterns & Source Code Overview» с 3:51 — я просто поставил его на пару минут на автомат, а затем остановил свой скрипт.

Трансформация изображений с AI: растягиваем или дорисовываем? | 16 июня 2026 года, 10:08

Опубликовал статью про то, как трансформировать изображения с изменением пропорций. С использованием генеративного AI, конечно, потому что из квадратного прямоугольное можно получить либо с потерей данных, либо с их додумыванием, либо растягивая и сжимая само изображение. Вот я описываю вариант, когда выполняется умное дорисовывание. При обработке сотен и тысяч изображений такой подход не обходится без ошибок, но их число относительно небольшое, и получается значительно выгоднее сосредоточиться на ручном «допиле» ошибочных, чем делать всю работу вручную сразу.

Конкретно это нужно при редизайне, когда выясняется, что новый дизайн немного не совпадает со старым по размеру, скажем, баннеров, а число этих баннеров измеряется сотнями и тысячами.

https://hybrismart.com/2026/06/15/automating-banner-crop-resize-across-breakpoints-with-generative-ai/

https://hybrismart.com/2026/06/15/automating-banner-crop-resize-across-breakpoints-with-generative-ai/

AI переосмысливает стратегии в спорте и бизнесе | 14 июня 2026 года, 02:06

Сегодня задумался, а ведь AI меняет многолетние, а то и многовековые представления о том, как лучше людям принимать решения в тех или иных ситуациях, особенно в спорте и наверное в бизнесе. Это сильно более интересное, чем просто автоматизация. Это больше про исправление багов в том, как люди много лет считали что-либо правильным и верным.

Например, в игре «го» десятилетиями считалось, что вторжение в угол (пункт 3-3) — грубо и преждевременно. AI тогда доказала обратное: ранний захват угла эффективен, а погоня за «красивой» формой проигрывает прагматичному контролю над центром. Или вот известный 37-й ход AlphaGo в партии против Ли Седоля был очень странным: люди так не ходили, потому что считали, что это «игра в пустоту». Его сначала приняли за ошибку AI, а потом признали гениальным (на YT полно разборов). В киберспорте OpenAI Five показала, что агрессивный ранний выкуп (buyback) павших героев в «доте», который люди считали пустой тратой золота, работает.

Сухая математика почти стёрла из NBA средний бросок: он имеет точность примерно 40-42% и дает ~0.8 очка за попытку, а трехочковый бросок при точности даже в 35% приносит 1.05 очка за попытку, и клубы перестроились под чистую выгоду. Ну тут уже не AI, а математика и статистика. Бросок из-под кольца (лей-ап/данк) оказался статистически самым высокоэффективным.

В футболе есть метрика xG — expected goals; AI разоблачила удары c 35 метров и из-за штрафной как неэффективные (вероятность гола ~5% и 20% соответственно) и в итоге команды терпеливо доводят мяч в штрафную, откуда xG удара возрастает до 15–40%. Оказывается, DeepMind имела проект с Ливерпулем, систему, советующую тренерам по угловым — TacticAI. Эксперты-оценщики в 90% случаев отдавали предпочтение рекомендациям TacticAI, а не тем тактическим расстановкам, которые применялись на практике.

Так вот, интересно, а если так и дальше пойдет, будет ли команда или атлет, испольльзующие более мощный AI, иметь преимущество за счет более выигрышных методик, чем команда, которая такими знаниями не обладает? Будут ли методики игр от AI настолько сложными, что «украсть» в другую команду через наблюдение со стороны их будет нельзя — ну вот как в случае с го?

«Панцирь» на крыше: удивительная защита московской многоэтажки | 06 июня 2026 года, 16:26

Читаю новость, что на крышу жилой многоэтажки («Дом в Сокольниках» ) в Москве вертолетом установили «Панцирь» вертолетом. Ну да, это полноценный панцирь, а его противодроновая модификация (СМД-Е), но удержаться и не сделать эту AI-фотку я не мог.

[SKIP]

Тал и неизвестная сторона Гаваны | 02 июня 2026 года, 00:50

В одном из шахматных сообществ запостили эту фотку.

Вроде всё по мотивам. Олимпиада, Гавана, Талю в одном из баров действительно бутылкой по голове прилетело очень сильно — и он вышел из строя на несколько дней — но потом вернулся за доску.

Но тут есть семь явных отличий с реальностью. Самая интересная деталь — слишком много авторучек и пальцев на правой руке. Но самая интересная — AI никогда бы правильно и не изобразил бы, как ни старайся.

Создание неуловимого: когда ИИ терпит неудачу | 2026-05-24T22:56:03

Забавно, но Gemini, Claude, ChatGPT не смогли разобрать, что я тут такое нарисовал. Вообще это в первый раз такое, что то, что способен увидеть человек, не способна увидеть разобрать модель.

Автоматизация кросс-постинга: боремся с трудностями API Facebook | 2026-05-23T14:28:22

Доделал в лучшем виде кросс-постинг из фейсбука на два моих сайта-блога [на которые почти никто не заходит] — beinginamerica точка com и raufaliev точка com. При публикации нового поста в фейсбуке по расписанию стартует механизм перевода поста на английский, разбор приложенных картинок, генерация описаний к ним, создание заголовка на основе текста поста и описания картинок, создание тегов на их же основе, запись поста в turso db — это облачная база, бесплатная до определенных лимитов, создание эмбеддингов через openai, запись в qdrant cloud — это тоже облачная база, но уже векторная, ну и загрузка изображений в wordpress по API, и публикация поста на английском и на русском по API.

Все бы хорошо, но из всех API самый дурацкий — у фейсбука. Во-первых, для страниц как у меня, переведенных в New Experience, нет возможности использовать почти все из этого API. Точнее, есть, но нужно долго доказывать фейсбуку, что это реально надо, показывая документы на стартап, демонстрируя приложение и т.д. Очевидно, им не хочется иметь дело с чем-то уносящим контент из их системы во вне. Кроме этого, токен, который дает доступ к последним сообщениям, относительно короткоживущий (возможно, несколько недель), и получать его заново нужно через браузер только. То есть, любая автоматика требует регулярного внимания, иначе она ломается.

Если протупил и вовремя не выгрузил последние посты через этот Facebook Graph API, они просто исчезают из списка последних и все, больше по API к ним не обратиться. Единственный способ — запросить выгрузку архива у фейсбука. Эта выгрузка тоже довольно дурацкая — там нужно много трансформаций делать и убирать лишнее. Например, в файле с постами, который я обрабатываю, там почему-то хранятся ссылки, которые я отправлял в комментариях без сопроводительного текста. А комментарии там идут в отдельном файле!

Чтобы назначить теги, пришлось решить отдельный челендж. Вот есть около 10000 постов за все время. Это большой кусок, и по нему теги построить нельзя, потому что он в контекстное окно LLM не помещается. А надо. Поэтому я делал так: скрипт берет случайные посты из 10000 в таком объеме, чтобы их суммарный размер был чуть меньше указанного лимита в токенах, и в конец этого блока добавляется промпт «сгенери мне наиболее частые теги, 30 штук» (промпт привожу упрощенно). В итоге я запустил это 10 раз и получил 10 наборов тегов по 30 штук, сгенерированных для разных срезов базы. Получилось 300 тегов, из которых конечно есть полные дубликаты, а есть синонимы и близкие по смыслу. Это все скармливается LLM, и получаем список тегов и иерархию тегов. Теперь у нас есть ограниченный набор тегов, которые максимально отражают 10000 постов. Так получилось, что за почти 20 лет на фейсбуке у меня расклад такой:

Тег Постов

==================================================

#Russia 3412

#Thoughts 3146

#Tech 3105

#Culture 2765

#Hobbies 2726

#AI 1603

#Science 1367

#Software 1358

#Travel 1298

#Learning 1138

#Society 1050

#Nature 958

#Education 915

#Business 902

#Art 894

#Programming 889

#Humor 840

#History 807

#Gadgets 750

#Moscow 713

#USA 614

#Cinema 567

#Webdev 493

#Music 476

#Sports 473

#Mindset 443

#Auto 400

#Books 386

ну и так далее. Этот список включает как теги из ограниченного списка, так и теги, которые LLM поставила материалу просто потому, что не нашла в ограниченном ничего подходящего.

Теги из ограниченного списка стали категориями на сайте. Остальные теги + эти стали просто тегами wordpress.

Поиск по картинкам. У меня было две идеи как его сделать. Первая — OpenCLIP. Это довольно просто, но требует хостинга модели где-нибудь. На своей машине легко, но каждый раз ее запускать неудобно, плюс я планировал переносить мигратор на дешевый сервер в амазон. В облачных моделях тоже нормально считать, но хоть немного за это надо платить, а это еще одна dependency. Но главное — что и без этого неплохо работает. Я с помощью OpenAI , который и так используется для перевода на английский, генерю описания к картинкам, и дальше по этим описаниям делаю embeddings с помощью large модели. Пока что все тесты на поиск проходят на ура. Особенно, когда на картинке есть текст, и большой вопрос разобрал бы ли его OpenCLIP.

В итоге:

1) вордпресс raufaliev точка com — бесплатный

2) вордпресс beinginamerica точка com — бесплатный

3) turso db где хранятся все посты — бесплатный

4) qdrant cloud где хранятся эмбеддинги — бесплатный

5) openai для перевода и описания картинок — не бесплатный, но недорогой (обработка постов за год потребовала 30 баксов).

Прикладываю два скриншота — как работает поиск по изображениям, и по текстам, а также дашборд мигратора.

Лисы и кролики: неожиданные зрители YouTube | 2026-05-12T13:26:59

На этом видео ничего не происходит. Забавно, что ютуб вызывает живой интерес не только у местных лис, но и у кроликов

Захватывающее чтение на английском: «Project Hail Mary» | 2026-05-10T15:30:56

Прочитал пока где-то четверть project hail mary. Очень простой английский, легко читается, увлекательно, в фильме пока все идет почти по книге, но но из-за этого почти читать все-таки интересно. Но мне вообще сложно читать художественную литературу, потому что я постоянно отрываюсь гуглить всякое. Дошел до фразы «..I used the bathroom (or «head» I guess, because I was on the ship)…» и задумался, а интересно, оказывается, что туалет на судне не только в русском называется иначе. И почему head? оказалось, что гальюн — это и есть head, только на датском и немецком). Кстати, гальюн есть еще и на самолетах, а исторически гальюны были только для матросов, офицеры ими не пользовались.

Вообще текст очень детский, ну и понятно почему — главный герой все-таки учитель физики в школе. Все эти motherfluffer и dang it, gosh darn it, fudge, holy moly, for cripes’ sake вместо for christ’s sake, там даже есть bull-puckey вместо bullshit. «Сходить по-маленькому» там to go wee. Вспоминается, позавчера мы заходили в магазин матрасов, и там консультант, обсуждая поднятую тему «если один из вас идет в туалет, второй даже не заметит, что первый встал» — ну мол, матрасы такие мягкие — активно использовала глагол «пописать» (to pee). А что такого? 🙂

Update: когда учитель физики встречает инопланетный корабль на 120 странице, глава заканчивается holy fucking shit! Вот к чему было все остальное;)

Там периодически бывают довольно забавные выражения, которые можно даже использовать в жизни 🙂 например, главный герой спрашивает Who pooped in your Rice Krispies? — это идиома to poop in someone’s cereal — «кто тебе в кашу нагадил».

В общем, если выбираете первую книжку для прочтения на английском — это в моем рейтинге на первом месте. Например, даже простой казалось бы «Гарри Поттер» сложнее (sophisticated) на мой взгляд. Здесь куча диалогов, школьная, но почти без сленга лексика, и довольно интересный сюжет. Плюс это настоящая научная фантастика, где автор образовывает читателя, про научный метод, про устройство мира и т.д. это происходит от имени героя, учителя физики, где тот делится всякими фактами и размышлениями о том, как работает физика, в применении к сюжету в общении с другими героями или сам с собой (а не с читателем). На уровне школьной программы 6-8 класса пока, но может дальше будет посложнее.