«Панцирь» на крыше: удивительная защита московской многоэтажки | 06 июня 2026 года, 16:26

Читаю новость, что на крышу жилой многоэтажки («Дом в Сокольниках» ) в Москве вертолетом установили «Панцирь» вертолетом. Ну да, это полноценный панцирь, а его противодроновая модификация (СМД-Е), но удержаться и не сделать эту AI-фотку я не мог.

[SKIP]

Тал и неизвестная сторона Гаваны | 02 июня 2026 года, 00:50

В одном из шахматных сообществ запостили эту фотку.

Вроде всё по мотивам. Олимпиада, Гавана, Талю в одном из баров действительно бутылкой по голове прилетело очень сильно — и он вышел из строя на несколько дней — но потом вернулся за доску.

Но тут есть семь явных отличий с реальностью. Самая интересная деталь — слишком много авторучек и пальцев на правой руке. Но самая интересная — AI никогда бы правильно и не изобразил бы, как ни старайся.

Создание неуловимого: когда ИИ терпит неудачу | 2026-05-24T22:56:03

Забавно, но Gemini, Claude, ChatGPT не смогли разобрать, что я тут такое нарисовал. Вообще это в первый раз такое, что то, что способен увидеть человек, не способна увидеть разобрать модель.

Автоматизация кросс-постинга: боремся с трудностями API Facebook | 2026-05-23T14:28:22

Доделал в лучшем виде кросс-постинг из фейсбука на два моих сайта-блога [на которые почти никто не заходит] — beinginamerica точка com и raufaliev точка com. При публикации нового поста в фейсбуке по расписанию стартует механизм перевода поста на английский, разбор приложенных картинок, генерация описаний к ним, создание заголовка на основе текста поста и описания картинок, создание тегов на их же основе, запись поста в turso db — это облачная база, бесплатная до определенных лимитов, создание эмбеддингов через openai, запись в qdrant cloud — это тоже облачная база, но уже векторная, ну и загрузка изображений в wordpress по API, и публикация поста на английском и на русском по API.

Все бы хорошо, но из всех API самый дурацкий — у фейсбука. Во-первых, для страниц как у меня, переведенных в New Experience, нет возможности использовать почти все из этого API. Точнее, есть, но нужно долго доказывать фейсбуку, что это реально надо, показывая документы на стартап, демонстрируя приложение и т.д. Очевидно, им не хочется иметь дело с чем-то уносящим контент из их системы во вне. Кроме этого, токен, который дает доступ к последним сообщениям, относительно короткоживущий (возможно, несколько недель), и получать его заново нужно через браузер только. То есть, любая автоматика требует регулярного внимания, иначе она ломается.

Если протупил и вовремя не выгрузил последние посты через этот Facebook Graph API, они просто исчезают из списка последних и все, больше по API к ним не обратиться. Единственный способ — запросить выгрузку архива у фейсбука. Эта выгрузка тоже довольно дурацкая — там нужно много трансформаций делать и убирать лишнее. Например, в файле с постами, который я обрабатываю, там почему-то хранятся ссылки, которые я отправлял в комментариях без сопроводительного текста. А комментарии там идут в отдельном файле!

Чтобы назначить теги, пришлось решить отдельный челендж. Вот есть около 10000 постов за все время. Это большой кусок, и по нему теги построить нельзя, потому что он в контекстное окно LLM не помещается. А надо. Поэтому я делал так: скрипт берет случайные посты из 10000 в таком объеме, чтобы их суммарный размер был чуть меньше указанного лимита в токенах, и в конец этого блока добавляется промпт «сгенери мне наиболее частые теги, 30 штук» (промпт привожу упрощенно). В итоге я запустил это 10 раз и получил 10 наборов тегов по 30 штук, сгенерированных для разных срезов базы. Получилось 300 тегов, из которых конечно есть полные дубликаты, а есть синонимы и близкие по смыслу. Это все скармливается LLM, и получаем список тегов и иерархию тегов. Теперь у нас есть ограниченный набор тегов, которые максимально отражают 10000 постов. Так получилось, что за почти 20 лет на фейсбуке у меня расклад такой:

Тег Постов

==================================================

#Russia 3412

#Thoughts 3146

#Tech 3105

#Culture 2765

#Hobbies 2726

#AI 1603

#Science 1367

#Software 1358

#Travel 1298

#Learning 1138

#Society 1050

#Nature 958

#Education 915

#Business 902

#Art 894

#Programming 889

#Humor 840

#History 807

#Gadgets 750

#Moscow 713

#USA 614

#Cinema 567

#Webdev 493

#Music 476

#Sports 473

#Mindset 443

#Auto 400

#Books 386

ну и так далее. Этот список включает как теги из ограниченного списка, так и теги, которые LLM поставила материалу просто потому, что не нашла в ограниченном ничего подходящего.

Теги из ограниченного списка стали категориями на сайте. Остальные теги + эти стали просто тегами wordpress.

Поиск по картинкам. У меня было две идеи как его сделать. Первая — OpenCLIP. Это довольно просто, но требует хостинга модели где-нибудь. На своей машине легко, но каждый раз ее запускать неудобно, плюс я планировал переносить мигратор на дешевый сервер в амазон. В облачных моделях тоже нормально считать, но хоть немного за это надо платить, а это еще одна dependency. Но главное — что и без этого неплохо работает. Я с помощью OpenAI , который и так используется для перевода на английский, генерю описания к картинкам, и дальше по этим описаниям делаю embeddings с помощью large модели. Пока что все тесты на поиск проходят на ура. Особенно, когда на картинке есть текст, и большой вопрос разобрал бы ли его OpenCLIP.

В итоге:

1) вордпресс raufaliev точка com — бесплатный

2) вордпресс beinginamerica точка com — бесплатный

3) turso db где хранятся все посты — бесплатный

4) qdrant cloud где хранятся эмбеддинги — бесплатный

5) openai для перевода и описания картинок — не бесплатный, но недорогой (обработка постов за год потребовала 30 баксов).

Прикладываю два скриншота — как работает поиск по изображениям, и по текстам, а также дашборд мигратора.

Лисы и кролики: неожиданные зрители YouTube | 2026-05-12T13:26:59

На этом видео ничего не происходит. Забавно, что ютуб вызывает живой интерес не только у местных лис, но и у кроликов

Захватывающее чтение на английском: «Project Hail Mary» | 2026-05-10T15:30:56

Прочитал пока где-то четверть project hail mary. Очень простой английский, легко читается, увлекательно, в фильме пока все идет почти по книге, но но из-за этого почти читать все-таки интересно. Но мне вообще сложно читать художественную литературу, потому что я постоянно отрываюсь гуглить всякое. Дошел до фразы «..I used the bathroom (or «head» I guess, because I was on the ship)…» и задумался, а интересно, оказывается, что туалет на судне не только в русском называется иначе. И почему head? оказалось, что гальюн — это и есть head, только на датском и немецком). Кстати, гальюн есть еще и на самолетах, а исторически гальюны были только для матросов, офицеры ими не пользовались.

Вообще текст очень детский, ну и понятно почему — главный герой все-таки учитель физики в школе. Все эти motherfluffer и dang it, gosh darn it, fudge, holy moly, for cripes’ sake вместо for christ’s sake, там даже есть bull-puckey вместо bullshit. «Сходить по-маленькому» там to go wee. Вспоминается, позавчера мы заходили в магазин матрасов, и там консультант, обсуждая поднятую тему «если один из вас идет в туалет, второй даже не заметит, что первый встал» — ну мол, матрасы такие мягкие — активно использовала глагол «пописать» (to pee). А что такого? 🙂

Update: когда учитель физики встречает инопланетный корабль на 120 странице, глава заканчивается holy fucking shit! Вот к чему было все остальное;)

Там периодически бывают довольно забавные выражения, которые можно даже использовать в жизни 🙂 например, главный герой спрашивает Who pooped in your Rice Krispies? — это идиома to poop in someone’s cereal — «кто тебе в кашу нагадил».

В общем, если выбираете первую книжку для прочтения на английском — это в моем рейтинге на первом месте. Например, даже простой казалось бы «Гарри Поттер» сложнее (sophisticated) на мой взгляд. Здесь куча диалогов, школьная, но почти без сленга лексика, и довольно интересный сюжет. Плюс это настоящая научная фантастика, где автор образовывает читателя, про научный метод, про устройство мира и т.д. это происходит от имени героя, учителя физики, где тот делится всякими фактами и размышлениями о том, как работает физика, в применении к сюжету в общении с другими героями или сам с собой (а не с читателем). На уровне школьной программы 6-8 класса пока, но может дальше будет посложнее.

Автоматизация документации больших данных: от анализа к действию | 2026-05-06T22:28:27

Интересно, а существует такой агент, который получает на вход таблицу (эксель), по размерам значительно превосходящую контекстное окно, и начинает ее документировать по сути. Вот есть несколько вкладок. Вот есть на вкладке 5 табличка в миллион строк и пять столбцов. Столбцы такие-то. Берем случайные данные из таблички, так, там вроде числа, а там — фамилии. Делаем предположение, что числа там везде — пишем код, который проверяет это предположение и заодно вычисляет мин/макс и набор уникальных значений. Так, значений немного, всего пять. Запишем. Проверяем теперь фамилии. Да, это просто строки, новый сэмплинг показал, что там фамилии правда. Тут формула. Смотрим куда она указывает. И т.д. А вот эта колонка — неясного назначения. Смотрим на данные — это какие-то числа от 0 до 1. Померяем среднее и разброс. Спросим у пользователя — может, даст какие комменты. Дал. Окалось это выданный kpi этого юзера из внешней системы. Запишем. И так далее. Получается документация. Дальше, когда есть документация, можно просить сделать какие-то операции со всем этим, поскольку LLM уже понимает плюс-минус назначение данных, и их связь, и может строить какие-то гипотезы на выявление outliers и их проверять.

Зачем вашему проекту надсмотрщик за качеством данных? | 2026-05-06T16:07:42

Почти в каждом проекте разработки есть выделенная команда автоматизации функционального тестирования, однако на удивление редко встречается аналогичный акцент на Data Quality. Неважно, идут ли данные из внешних интеграций, от пользователей или генерируются самой системой, часто они остаются без должного контроля просто потому, что почему-то никто не считает это важным, а потом борятся с последствиями — они накапливаются как снежный ком. Чем дольше длятся такие проблемы, тем труднее их устранить, что в итоге приводит к ситуации, когда народ просто смиряется с «непоправимым» состоянием базы. Уж насколько лучше выявлять эти проблемы в момент их возникновения, пока технический долг не стал непреодолимым, чем потом решать, как сделать так, чтобы из-за них ничего не падало;

По сути, надо внедрять постоянного «надсмотрщика» над базами данных всех типов, использующихся системой (реляционных, NoSQL, поисковых индексов или графовых БД) — по сути, это слой проверки качества данных поверх процессов. Конечно, должны быть четкие правила — что именно проверять и какими флагами отмечать конкретные аномалии.

Должен быть ответственный за процесс (кожаный мешок, не AI), который будет интегрировать эти отчеты в рабочие процессы разработки и поддержки. Многие проблемы целостности данных невозможно решить просто через интерфейс — они требуют от инженерной команды разработки скриптов для массового исправления и очистки данных.

Тут кстати еще переходит все в область детектирования аномалий (outlier detection). Машинное обучение и LLM для выявления тонких «плохих» паттернов, которые традиционные системы на основе правил могут пропустить.

Что вы об этом думаете? Внедрены ли подобные механизмы в ваши процессы?

Преобразование чата в семантический поиск вопрос-ответ | 2026-04-30T04:05:37

За вечер сделал простую утилитку, которая вытаскивает чат Natural Language Processing за полтора года — там 65 тысяч сообщений, и переводит его в пары вопрос-ответ, по которым есть семантический поиск. При клике на результат поиска (слева) открывается диалог в чате. Подсвечиваются те сообщения, которые являются ответами на вопрос. Ну и сверху подсвечивается вопрос а оригинальной формулировке.

Как работает: система предполагает, что люди в основном делают reply to на сообщения, находящиеся относительно близко в прошлом. Если на одно сообщение делается несколько reply-to, то наверняка оно полезное, и зацепило в чате других. Система берет сообщения, начиная с того, на которое многие отвечали, и заканчивая последним в цепочке reply-to — и среди таких берет те, которые имеют минимум 3 reply-to к оригинальному вопросу. То есть, по сути, она вырезает из чата кусок, начинающийся популярным вопросом так, что после нижнего отреза скорее всего уже идет нерелевантное. Такие блоки могут накладываться друг на друга — например, если кто-то спросил, пока другие отвечали на что-то еще.

То есть, если пользователь А спросил какая погода, и ему ответили «хорошая», «плохая», «дождь», и еще было пять сообщений без reply-to, а потом кто-то ответил на «дождь» вопросом «почему дождь», и на этот вопрос ответили еще пятеро, то в систему попадет первый вопрос про погоду — кусок будет заканчиваться 13 сообщениями.

Дальше эти куски суммаризуются в вопрос-ответ.

Получается прикольно.

П. С. На скриншоте поисковый запрос не имеет отношения к результату поиска, потому что я сдуру сделал скриншот, когда запрос ещё поменял, а отправить ещё не нажал