Интерактивная визуализация алгоритмов рекомендаций в новом open source приложении | 2025-11-11T05:23:46

У меня вышло электронное open source приложение к моей книжке Recommender Algorithms! Это «песочница», где можно «погонять» различные алгоритмы рекомендаций с разными настройками, и по каждому алгоритму посмотреть специфичную ему визуализацию, помогающую понять как он работает. Например, для таких алгоритмов как ItemKNN, SLIM или EASE ключевой визуализацией является heatmap, выученной матрицы схожести (item-item similarity matrix). Это позволяет увидеть, какие именно пары товаров модель считает «похожими» (или «влияющими» друг на друга). Для SLIM, например, полезна «Sparsity Plot» , показывающая, что матрица схожести действительно получилась разреженной. Для алгоритмов ассоциативных правил (Apriori, FP-Growth, Eclat) визуализация — это вообще не график, а интерактивные таблицы с найденными «Частотными наборами» (Frequent Itemsets) и сгенерированными «Правилами» (Association Rules) , которые можно фильтровать и сортировать.

Кроме этого, там есть параметрический механизм создания «игрового датасета» — Dataset Wizard. Работает он так — есть шаблонные датасеты, которые описывают items через характеристики. Например, рецепты через вкусы. Или фильмы через жанры. Система генерирует случайных пользователей со случайным набором характеристик из того же набора — причем там много ползунков, позволяющих это распределение сделать более контрастным или сложным. Далее создается уже матрица оценок пользователями айтемов — условно если совпадают характеристики пользователя и айтема, то оценка будет выше, так как «совпадают вкусы» и наоборот, если различаются, то оценка будет ниже. Тут тоже ползунки, добавляющие шум и scarcity — рандомно удаляется часть матрицы. На вход алгоритму рекомендаций характеристики товаров и пользователей не подаются, они скрыты, но они используются для визуализации результатов.

Третьим компонентом приложения является подбор гиперпараметров. По сути, это автоконфигуратор под конкретный датасет. Там используется итеративный подход, который намного эффективнее, чем полный перебор (Grid Search) или случайный поиск (Random Search). Если говорить кратко, система анализирует историю прошлых запусков (trials) и строит вероятностную «карту» (суррогатную модель) того, какие параметры, скорее всего, дадут лучший результат. Затем она использует эту карту, чтобы по-умному выбрать следующую комбинацию для проверки. Этот метод называется Последовательная оптимизация на основе суррогатных моделей (SMBO).

Код свободный, будет еще дополняться новыми алгоритмами и новыми визуализациями.

Ссылочка на код в комментариях.

Ссылочка на сайтик, где код развернут и где можно посмотреть на приложение, тоже в комментариях.

Запуск книги «Рекомендательные алгоритмы»: все, что нужно знать | 2025-10-25T17:36:38

I finally released a book on #RecSys! It’s called Recommender Algorithms, where I’ve compiled over 50 recommendation algorithms with detailed mathematical derivations, thorough explanations, and code examples.

It all started early this spring in Germany, when I attended an ACM conference and sketched out the first structure of the book while analyzing the talks from the RecSys track. And now, just six months later, it has come to life.

Why did I write it? Because neither online nor in print is there a single, accessible resource that deeply explores recommendation algorithms of various types and purposes. There are articles focused on small subsets, but collecting and systematizing approaches—from foundational methods to the very latest—seems to have never been done before. I don’t know if I succeeded, but I’d love to hear your feedback.

Please like & share!

P.S. Click at READ SAMPLE to see the first 40 pages. The table of contents is there as well.

Страшные тайны отеля Congress Plaza | 2025-10-16T12:27:19

Мне начинает нравится мой отель. Я живу в 446

««В статьях, которые мы читали, сообщается, что если вы остановитесь в этом отеле, избегайте четвёртого этажа, а особенно комнаты 441. Именно там, говорят, обитает женщина с того света — она появляется у изножья кровати и пинает в ноги гостей, которые пытаются уснуть. А эти гости останавливаются там именно потому, что хотят пережить “паранормальный опыт”. Не спрашивайте. Читали когда-нибудь страшный рассказ Стивена Кинга “1408”? Говорят, именно отель Congress Plaza послужил его вдохновением и стал одной из причин, благодаря которым состояние мистера Кинга достигло 500 миллионов долларов»

“Items we have read report that if you do stay at this hotel, avoid the fourth floor, or at least Room 441. That is where a lady from the other side lurks at the end of the bed, kicking the feet of guests who attempt to sleep there. And those guests are attempting to sleep there because they want to have the hauted experience. Don’t ask. Ever read Stephen King’s horror short story “1408”? The Congress Plaza is said to be its inspiration and a portion of the source that has brought Mr, King’s net worth to $500 million.”

Recommender Algorithms: Путеводитель по алгоритмам рекомендаций | 2025-10-13T11:54:14

Наконец-то я выпустил книгу! Она называется Recommender Algorithms — в ней я собрал более 50 алгоритмов рекомендаций с математическими выкладками, подробным описанием и примерами кода.

Все началось ранней весной в Германии, когда я посетил конференцию ACM и сделал первые наброски структуры книги, анализируя доклады по потоку RecSys. И вот, спустя полгода, книга увидела свет.

Почему она появилась? Потому что ни в интернете, ни в печати нет единого, доступного источника, где подробно разбирались бы алгоритмы рекомендаций разных типов и назначения. Есть статьи, сфокусированные на узких аспектах, но собрать и систематизировать разработки — от фундаментальных до самых недавних — до сих пор, кажется, никому не удавалось почему-то. Может, это никому и не надо было. Мне вот вдруг стало надо. Не знаю, получилось ли у меня, но буду рад вашим отзывам.

Продаётся на amazon и Barnes and Noble. Есть русский автоматический перевод (удивительно, но очень неплохой), но я не знаю, как его продавать пока.

(Это не единственная моя книга, но сегодня — только об этой.)

Глубины Solr и Lucene: Передовой перевод для инженеров | 2025-10-06T17:11:12

Готовлю к публикации книжку по Solr&Lucene. Как вы думаете, публиковать такой перевод на амазоне? 🙂

Книжка про алгоритмы и подкапотную инженерию. Я с этого ракурса еще не видел книг, может, будет кому интересна.

AI-генератор диаграмм: текст визуализации | 2025-09-30T20:57:35

Я пока работаю над книгой, понял, какого продукта мне не хватает. Это AI-генератор диаграмм по текстовому описанию.

Идея в том, что мастер-документом для диаграммы является текст. Это текстовое описание может быть (и должно быть) довольно подробным, чтобы сгенерированная диаграмма была именно такой, какой ее себе представляет автор. Саму диаграмму не редактируют. То есть, ее можно редактировать — подвигать там кружочки, но в идеале после внесения изменений система должна обновить текст, после генерации из которого получится то, что надвигал юзер.

Результат — диаграмма — должна насколько возможно хорошо соответствовать описанию. Если она не соответствует описанию потому что нельзя условно сделать треугольник с тремя тупыми углами, то система должна сделать максимум возможного и дать словесный ответ, что не получилось. Дальше пользователь может изменить постановку задачи так, чтобы система заткнулась и выдала диаграмму как надо.

Но дальше мы понимаем, что автор мог довольно случайно попасть в то, что ему понравилось своим кривым текстом. И если перегенерить, то получится что-то другое, и не факт, что хорошее. Поэтому —

Можно попросить систему, чтобы она сгенерировала по диаграмме описание диаграммы, по которому, если его засунуть в генератор диаграмм, получится ровно то, по чему это описание сгенерировалось. Да, это описание будет более многословным, и многослойным, но зато будет более надежно описывать результат.

То есть, с этого момента вы уже не работаете с диаграммой. Вы работаете с текстом. Если нужна диаграмма — вы просто компилируете текст в диаграмму и получается как надо. Но вы даже с текстом не работаете напрямую. Вы работаете с этим текстом -описанием диаграммы через LLM. То есть, просите добавить какой-нибудь блок, и меняется текст, но меняется так, чтобы внезапно не поменялось вообще все.

Диаграмма на выходе должна быть в объектной форме, из которой можно уже делать растровую (PNG) или векторную (SVG, EPS).

Также было бы здорово, если бы на вход такой системе можно было бы дать уже имеющиеся диаграммы или диаграммы-шаблоны для того, чтобы она брала оттуда стили и имеющиеся конвенции как отображать что.

В общем, вот такие фантазии. Если у кого есть представления как это реализовать — давайте обсудим 🙂

Руководство по алгоритмам рекомендаций 2026 | 2025-09-26T21:17:55

Я тут какое-то время назад решил книжку написать по алгоритмам рекомендаций. С математикой, примерами кода, репозиторием и т.д. English, of course.

Соответственно, ищу волонтеров-рецензентов, разбирающихся в теме. Также тех, кто имеет опыт с print-on-demand на Амазоне.

Контента уже страниц на 200. Работы еще месяца на три. Рабочее название Recommender Algorithms in 2026: A Practitioner’s Guide. Где-то половина еще сырая, первые страниц 80 уже в 80% готовности.

Сделал себе механизм публикации в HTML и в PDF одним махом. HTML-версия полнофункциональна, с навигацией. Блок навигации отражает текущий раздел, при скролле он сдвигается на тот, что перед читателем. Клик по разделу конечно телепортирует на что кликнули. Все полностью автоматическое.

Аладдин: мост между культурами | 2025-08-30T11:39:54

В оригинальной сказке «Тысяча и одна ночь» Аладдин — мальчик, который живет со своей матерью в Китае (!). Много раз подчёркивается, что дело происходит в Китае, но имена персонажей всё-таки арабские. Есть мнения, что Алладин — китаец, хотя конечно в те года национальностей не существовало.

При этом там все сложно вообще с тем, откуда сказка. В «1000 и одну ночь» (или Arabian nights) Аладдина добавил французский переводчик Antoine Galland, которому сказку рассказал «маронит Ханна из Алеппо» Hanna Diyab, даже дата из дневников известна — 5 мая 1709 года. В течение месяца Дияб рассказывал ему ещё пятнадцать сказок. Десять из них, включая «Али-Бабу», были позднее опубликованы в последних четырёх томах «Ночей» Галлана (1712–1717). То есть, «1000 и одна ночь» написал французский переводчик по мотивам из разных мест.

Пишет двадцатилетний Дияб, тот, что рассказал переводчику.

«Был один старик, который часто навещал нас. Он заведовал библиотекой арабских книг. Он хорошо читал по-арабски и переводил книги с этого языка на французский. В то время он перевёл книгу Сказки 1001 ночи. Этот человек просил моей помощи в некоторых вопросах, которых не понимал, и я ему их объяснял. В книге не хватало нескольких ночей, и я рассказал ему истории, которые знал. Тогда он дополнил книгу этими историями и остался очень доволен мной». (MS Sbath 254, f. 128a)

Американцы стремятся работать в СССР: история одного спроса | 2025-08-24T18:27:30

Не удержался и купил книжку Great Depression в perceville, VA, куда приехал на велике. Как везти час обратно ее в велосипедной одежде без рюкзака ещё не знаю. Интересная заметка на случайной странице

Перевод:

АМТОРГ ПОЛУЧАЕТ 100 000 ЗАЯВОК НА 6 000 КВАЛИФИЦИРОВАННЫХ РАБОЧИХ МЕСТ В РОССИИ

(Business Week, 7 октября 1931 г., стр. 32–33)

НЬЮ-ЙОРКЦЫ СОСТАВЛЯЮТ основную массу американцев, которые решили, по крайней мере на данный момент, связать свою судьбу с русскими. Пенсильвания, Нью-Джерси и Иллинойс дают наибольшее количество заявок по новому призыву на «6 000 квалифицированных рабочих», также хорошо представлены Мичиган, Огайо, Калифорния и Массачусетс.

В офис «Амторга» в Нью-Йорке поступило более 100 000 заявлений на эти 6 000 рабочих мест. Только за одно утро количество заявок составило 280. Были представлены все штаты, кроме десяти. Аляска и Панама также дали по одному заявителю, и 18 канадцев захотели «попробовать удачу в России».

Индустриальные штаты, естественно, обеспечили наибольшее количество заявок, но и другие были представлены. Айова, Техас и Айдахо тоже дали некоторое количество квалифицированных рабочих.

Так как широко известно, что Россия «индустриализируется», большинство заявителей — это квалифицированные рабочие в области машиностроения, железных дорог, металлургии, автомобилестроения или строительной индустрии. Взгляд на квалификацию 280 заявителей за одно «типичное» утро показал, что специалисты всех профессий искали работу, даже если это означало переезд в Россию и получение зарплаты в рублях. Среди них были: 2 парикмахера, 1 директор похоронного бюро, 2 сантехника, 5 маляров, 2 повара, 36 «канцелярских» работников, 1 оператор станка, 9 плотников, 1 авиатор, 58 инженеров, 14 электриков, 5 продавцов, 2 печатника, 2 химика, 1 сапожник, 1 библиотекарь, 2 учителя, 1 чистильщик и красильщик, 11 автомехаников, 1 стоматолог.

Около 85% заявителей являются гражданами США, только 40% из них рождены в стране. 60% иностранцев в основном происходят из Восточной Европы. Несколько афроамериканцев подали заявки, но их число мало, так как большинство из них неквалифицированные рабочие.

Женщины составляют лишь небольшую часть заявителей, хотя многие жёны решили сопровождать своих мужей в этом начинании. Большинство рабочих, подающих заявки, женаты и имеют детей.

Названы три основные причины желания получить место: (1) безработица; (2) недовольство условиями здесь; (3) интерес к советскому эксперименту. Иностранные рабочие почти все заявляют, что не намерены оставаться в СССР. Среди инженеров лишь 10–20% планируют остаться.

——

Это 1931, один из самых сложных годов того периода. Где-то к середине тридцатых стало улучшаться, и надо сказать, окончательно ее победила вторая мировая война.

Как одно слово на трех языках открыло мир бутылей | 2025-08-20T04:02:39

Перечитываю автобиографию Феймана, в этом раз на английском, и упёрся глазами в слово carboy. Оказалось, это тоже самое, что lady jeanne, и тоже самое, что demijohn — это по сути lady jeanne на французском (dame joanne). Короче, это просто бутыль.