Не та раскладка: когда gremlin стал похуистом | 2026-04-28T20:33:08

Это я набрал слово gremlin, не переключив раскладку. Собрался блин почитать про язык запросов графовых баз данных, по работе надо. Удивляет гугл, удивляет

Тесла роботы выходят на улицу | 2026-04-25T05:37:13

Роботов Тесла потихоньку выпинывает на улицу. Сегодня на велике проезжал мимо. Жаль не включают

Противоестественная интуиция высоких размерностей | 2026-04-13T23:17:35

Я сейчас много работаю с векторами большой размерности, и некоторые штуки, которые раньше не осознавал до конца, начинают реально щекотать мозг. Наша 3D-интуиция там не просто не работает — она врет.

Оказывается, любые два случайных вектора в пространстве высокой размерности с огромной вероятностью будут почти перпендикулярны друг другу. Почти всё пространство — это один сплошной «экватор».

Собственно, на этом во многом и построено машинное обучение. Если ваши эмбеддинги внезапно показывают высокую косинусную близость (например, 0.8 — это не статистическая погрешность, а мощнейший сигнал. В 1000-мерном мире «случайно» так сойтись почти невозможно.

В таких пространствах почти вся масса данных сосредоточена в экстремально тонком поверхностном слое. «Внутренности» объектов математически пусты.

Это легко проверить на таком воображаемом примере. Возьмем «кожуру» многомерного шара толщиной всего в 1% от радиуса. Объем шара пропорционален радиусу в степени размерности.

• В трехмерном пространстве мякоть (0.99 радиуса) занимает 97% объема, возводите 0.99 в куб.

• В 1000D мякоть занимает всего 0.000043%.

Можно ещё по другому понять. Чтобы точка оказалась ближе к началу координат, нужно, чтобы по всем осям координаты были близко к началу координат. Стоит одной оси иметь большое значение, и все, точка улетела. Если брать точки случайно, то просто вероятность того, что они все разом будут ниже любого значения падает с ростом размерности, причём падает быстро.

Всё «мясо» данных всегда оказывается в кожуре. Любая выборка в High-D — это, по сути, набор граничных значений.

Для белого шума в высокой размерности расстояние между самым близким и самым дальним соседом становится почти одинаковым. Понятие «близости» просто деградирует.

Сравнение производительности CPU и GPU на примере создания эмбеддингов | 2026-04-11T18:08:07

Когда работаешь с определенными задачами, насколько велика разница между CPU и GPU просто поражаешься. Например, мне вот нужно создавать много (миллионы) эмбеддингов, модель BGE M3. При запуске на моем совсем не слабеньком 24-ядерном процессоре Intel Core Ultra 9 285K создание 500 эмбеддингов занимает 45.85 секунд, а при использовании GPU NVIDIA 5090 точно такая же работа выполняется за 0.36 секунды. Это настолько быстро, что я специально писал этот бенчмарк, чтобы понять, а у меня вообще GPU привлекается или нет. Просто та программа, которая шлет в TEI запросы, делает это в тестовом режиме недостаточно активно (условно пару раз в секунду), и графики GPU просто около нуля показывают загрузку.

— Testing http://localhost:8080/embed — <— CPU version

Requests completed: 500

Total time: 45.85 sec

Throughput: 10.90 req/sec

Average latency (Avg Latency): 4386.11 ms

P95 latency: 5021.88 ms

— Testing http://localhost:8090/embed — <— GPU version (NVIDIA 5090)

Requests completed: 500

Total time: 0.36 sec

Throughput: 1398.69 req/sec

Average latency (Avg Latency): 31.38 ms

P95 latency: 53.18 ms

========================================

RESULT: is 99.22% faster

Smartfolio.me: Революция в организации знаний | 2026-03-19T04:01:04

Мое творение — инструмент для организации знаний Smartfolio.me — обросло новыми фичами. Прилагаю видос пятиминутный с обзором.

Это как гугл докс, но документы можно вкладывать друг в друга, создавая целую сеть связанных знаний, и такими документами могут быть и PDF, и обычные тексты.

Закидываешь PDF, программа превращает её в картинки, и можно прямо на страницах выделять любые куски, чтобы оставить коммент или задать вопрос.

Если в тексте что-то непонятно, выделяешь область и жмешь «elaborate» — LLM распишет всё подробно, учитывая контекст всего документа, и объяснение останется ссылкой к выделенному фрагменту.

Можно просто вырезать кусок из PDF, а LLM вытащит оттуда чистый текст или готовую формулу.

В окне с PDF теперь есть своя панелька — там сразу видны все комментарии и разъяснения, так что можно быстро прыгать по нужным местам.

Можно вырезать схему или график из PDF, скопировать как картинку и вставить в свой текст. Она сама обрежется «на лету» и сохранится в базу, но не как копия, а как ссылка на страницу с параметрами кропа.

Если удалил ссылку на страницу в тексте, она не пропадет совсем, а попадет в специальный список, откуда её можно привязать в другое место или удалить окончательно. Один и тот же документ можно вставить в несколько мест. Если добавил в него коммент, он обновится везде, где этот документ прилинкован.

Математика поддерживается полностью — формулы на LaTeX можно не только смотреть, но и кликнуть, чтобы подправить их в редакторе.

Можно генерировать формулы по описанию. Просто пишешь словами, что за формула тебе нужна (например, «биномиальное распределение»), и система сама выдает готовый код формулы.

Теперь есть система плагинов — по сути это изолированные от главной программы экспериментальные функции. Например, есть плагин, который рекурсивно собирает все-все дочерние странички в один длинный документ — удобно, если надо всё сразу прочитать или распечатать.

Или вот плагин «Чистка транскриптов YouTube». Если есть грязный текст лекции с YouTube, плагин сам расставит знаки препинания, параграфы и сделает красивые заголовки.

Если вставишь ссылку на сайт, он откроется в колонке рядом — можно читать источник и одновременно делать свои заметки. При этом некоторые сайты не разрешают себя встраивать в чужие страницы. Система такие сайты опознает, и они открываются в новой вкладке.

Левую панель со списком страниц можно скрывать или менять её размер мышкой, чтобы она не отъедала место на экране.

Можно просто скопипастить изображение или скриншот, и он не просто вставится, а еще и зааплоадится в базу данных.

Поддерживается работа с мобильного телефона. На телефоне интерфейс переключается в режим одной колонки, чтобы было удобно читать и комментировать на ходу.

Поддерживаются несколько баз данных — можно переключаться. Можно подключать разные базы данных и разные LLM и переключаться между ними.

Эффективное изучение языка с электронным словарем Набокова | 2026-03-15T23:20:05

Блин, реально ж удобно. Сижу читаю.

Паттерн использования такой: держу телефон в руках. Там в apple books эта и книжка. Видишь незнакомое слово — оно с большой вероятностью будет в списке слов главы. Определение учитывает перевод самого Набокова. Дальше смотришь на пару слов вперёд, убираешь телефон, продолжаешь читать. Встречаешь те слова, и они ещё в кратковременной памяти, и ура, понимаешь. В паузу загружаешь в мозг следующие пару слов. В руках надо держать телефон и перелистывать, каждая страница содержит 4-5 определений.

Сейчас каждое слово имеет определения на английском (толкование), французском, и немецком. Соответственно, я могу издать четыре книжки.

В целом, мой уровень английского совпадает с предположениями моей программки о том , какие слова будут вызывать сложность. Но когда-нибудь мне надо такое для французского, и там понадобится для и каждого слова некоторую оценку уровня сложности, потому что мне будут непонятны и некоторые базовые слова тоже. Не уверен, что книжка с базовыми словами будет удобна. С редкими — точно удобна.

Словарь Набокова: Мультиязычное путешествие по текстам писателя | 2026-03-15T18:30:39

Читаю Набокова и решил отвлечься и сделать удобную программку «Словарь Набокова» и подумываю продавать его на Амазоне как книгу. По сути, выглядит это так (см скриншот) — определения сложных слов на английском, русском, немецком и французском, идущих в том же порядке, в каком они идут в оригинальной книге.

Вы бы купили такую книжку?

Для того, чтобы корректно сделать их определения, я также написал aligner — программу, которая сопоставляет предложения и абзацы на английском с их переводами (набоковским) на русский. И когда создается определение слова, используется не только знание LLM, но и перевод на русский автора. Отдельно стоит рассказать, как работает алгоритм (я его сам придумал, потому что все, что нашел в сети, не работало как мне надо). Он находит сначала длинные предложения, и находит для самых длинных предложений их пару через косинусное сходство embedding-векторов, созданных через модель multilingual e5. Эти предложения становятся якорями. Затем, предполагая, что для длинных предложений ошибка почти исключена, находится самое длинное предложение уже между якорями, и все повторяется заново рекурсивно. Там много ситуаций, когда у предложения на русском нет аналога на английском и наоборот, когда предложение разбито на два, или наоборот два слиты в одно. Алгоритм как может это обрабатывает. Результат — очень неплохое качество выравнивания. До такой степени, что ошибки выравнивания уже не получается находить (но наверняка они есть). Так или иначе, оно нужно только для контекста для перевода слов, даже если там и есть редкие ошибки, то не страшно.

Вы бы купили такую книжку?

Геополитический расклад: анализ отношений между странами | 2026-03-12T03:29:28

Ради развлечения решил сделать матрицу кто с кем друг и кто с кем враг. Для каждой пары страна-страна я спрашивал у Gemini, в какую из пяти категорий попадают отношения: «на ножах» (фиолетовые), «преимущественно недобрые» (красным), «никакие» (желтым), преимущественно добрые» (голубым), «друзья» (зеленым). Лиза сказала, что «никакие» должны быть фиолетовыми. В целом, качество оценок Gemini неплохое.

Из всех стран выделяются три красные линии. Это страны, у которых не очень с очень много кем. Ну Россию вы правильно угадали. А что за вторая страна? Израиль? Нет, это Беларусь и Венесуэла.

В пятерку стран, с которыми все дружат и которые много с кем дружат, LLM включил США, Великобританию, Канаду, Францию и Германию. Есть антирейтинг — это страны, у которых много с кем очень не ладится («на ножах»). В этом рейтинге на первом месте Россия с 21 страной, и на втором месте Израиль с 18 недругами. Дальше с большим отрывом идут Сирия и США с 9 недругами. Есть отдельный рейтинг Conflict zone — это по сумме красных с фиолетовыми. Россия, Венесуэла, Беларусь, Израиль, США, Иран, Украина.

Есть «клуб пацифистов». Эти те, у которых вообще нет врагов с сортировкой по числу друзей. Рейтинг: Багамы, Ватикан, Люксембург, Ангола, Сингапур, Исландия, Ямайка, Танзания, Замбия.

Мне было интересно, а что если применить формулу: враг моего врага — мой друг? Что поменяется? Это привело к новым краскам на матрице — logic friends.

Самым неожиданным лидером рейтинга Master Pragmatists стал Тайвань (25 логических связей). Почему так? В логике LLM, Тайвань — это страна, которая официально признана немногими, но из-за глобального противостояния с Китаем она автоматически становится «логическим другом» для всех, у кого с Пекином натянутые отношения. Это подтверждается и в разделе Shadow Bridges: у Тайваня 23 связи за пределами своего региона. Он буквально «сшивает» разные части света через общую проблему.

Отчет «Тайные партнеры» — список геополитических оксюморонов. Это пары, которые в официальных новостях «на ножах», но по расчету Gemini вынуждены дружить. Например, Афганистан — США/Великобритания. Несмотря на статус «rather bad relations», логика Gemini видит в них «логических друзей». Вероятно, из-за общих региональных угроз (например, ИГИЛ) или зависимости от гуманитарных и теневых каналов. Или вот странный союз «Беларусь — Венгрия». Номинально — разные лагеря, фактически — схожий стиль риторики и общие «недруги» в Брюсселе. Эритрея — Эфиопия: Статус «на ножах», но при этом они попали в логические друзья.

В отчете «наиболее противоречивые» первые места занимают США, и потом с большим отрывом Россия, и еще с большим — Великобритания, Канада, Украина. Это страны с наибольшим значением произведения Love x Hate. То есть, у которых одновременно много и друзей, и врагов.

Еще один отчет — пофигисты. Про них LLM не смогла много что сказать, видимо, потому, что они никого не волнуют (как в прямом, так и в переносном смысле). Там например Магадаскар и Гаити.

Еще я попробовал кластеризовать по силе друзей и получил четыре группы стран.

Самый масштабный кластер. Ядро: Китай, Россия, Иран, Индия и страны БРИКС+, а также почти весь африканский континент (от Египта до ЮАР) и значительная часть Ближнего Востока (ОАЭ, Саудовская Аравия, Катар).

Во второй кластер попали главным образом европейские страны. Ядро: Франция, Германия, Великобритания. Сюда алгоритм определил Украину и Израиль. Это логично: их выживание зависит от «преимущественно добрых отношений» с европейским ядром. В этом же клубе находятся Армения, Грузия и Сербия. Видимо, несмотря на все политические качели, их связи с Европой Gemini считает более фундаментальными, чем любые другие.

В третий кластер попали США, Канада, Бразилия, Мексика, а также, например, Тайвань. Официально он может быть «логическим другом» для всех врагов Китая, но по «силе друзей» он намертво пришит к американскому блоку. Сюда же попал Ватикан, что делает этот клуб не только экономическим, но и в некотором роде «ценностным».

В четвертый, самый компактный и специализированный клуб, попали страны Океании и Юго-Восточной Азии. Лидеры: Австралия, Япония, Новая Зеландия, Сингапур. Это получился клуб стран, которые пытаются балансировать в самом сложном регионе планеты. Здесь же находятся почти все островные государства (Фиджи, Самоа, Тонга).

Что еще можно попробовать вытащить из этой информации?

«Гравитация» — научный взгляд Александра Семихатова | 2026-03-09T14:56:52

У Семихатова очень классный фильм вышел про гравитацию. Конечно, прям слишком популярный, но понятно почему — надо не отпугнуть аудиторию. Очень классно и профессионально сделан.

У меня на полке книжка Семихатова лежит (»Все, что движется»). Тоже популярная, но там несколько серьёзнее изложение, местами с формулами и с кучей иллюстраций. Потом мнение о нём немного смазалось из-за за специфической манеры вести подкасты, постоянно перебивая гостя и отвечая на свои же вопросы демонстративно «круче» гостя. Но в фильме он прям красавец. Рекомендую

Ссылка в первом комментарии