Понимание слова «oblong» в английском языке | 2026-03-17T13:50:37

Иногда в английском встречаются очень необычные слова, которые очень непросто перевести на русский. Вот, например, слово oblong. Как прилагательное оно переводится как «вытянутый, продолговатый», но в книге оба использования — существительные. Часто oblong относится к лицу — то есть, близко к овалу, но oblong — это более широкое понятие, которое описывает любую фигуру, имеющую растянутый вид. My mom bought an oblong tablecloth for her new table.

Как существительное оно тоже используется, и довольно часто (хотя реже, чем как прилагательное). Как существительное, oblong — это «прямоугольный объект или плоская фигура с неравными прилежащими сторонами». Линейки считаются продолговатыми предметами (oblongs). Ноутбуки, планшеты и плоские телевизоры — это oblongs разных размеров. Прямоугольник можно определить как oblong; однако не все продолговатые фигуры являются прямоугольниками. То же лицо, например. Ещё, в математике oblong number — это то, что на русском прямоугольное число (произведение двух последовательных чисел. Например, 12). В общем, чёрт ногу сломит.

С 15 века слово живет, между прочим. Так вот, в книжке оно у меня встречается два раза, и оба — существительные. В первом случае Набоков перевел его как «закут», а во втором — «a small oblong of smooth silver» как «кусочек».

Эффективное изучение языка с электронным словарем Набокова | 2026-03-15T23:20:05

Блин, реально ж удобно. Сижу читаю.

Паттерн использования такой: держу телефон в руках. Там в apple books эта и книжка. Видишь незнакомое слово — оно с большой вероятностью будет в списке слов главы. Определение учитывает перевод самого Набокова. Дальше смотришь на пару слов вперёд, убираешь телефон, продолжаешь читать. Встречаешь те слова, и они ещё в кратковременной памяти, и ура, понимаешь. В паузу загружаешь в мозг следующие пару слов. В руках надо держать телефон и перелистывать, каждая страница содержит 4-5 определений.

Сейчас каждое слово имеет определения на английском (толкование), французском, и немецком. Соответственно, я могу издать четыре книжки.

В целом, мой уровень английского совпадает с предположениями моей программки о том , какие слова будут вызывать сложность. Но когда-нибудь мне надо такое для французского, и там понадобится для и каждого слова некоторую оценку уровня сложности, потому что мне будут непонятны и некоторые базовые слова тоже. Не уверен, что книжка с базовыми словами будет удобна. С редкими — точно удобна.

Словарь Набокова: Мультиязычное путешествие по текстам писателя | 2026-03-15T18:30:39

Читаю Набокова и решил отвлечься и сделать удобную программку «Словарь Набокова» и подумываю продавать его на Амазоне как книгу. По сути, выглядит это так (см скриншот) — определения сложных слов на английском, русском, немецком и французском, идущих в том же порядке, в каком они идут в оригинальной книге.

Вы бы купили такую книжку?

Для того, чтобы корректно сделать их определения, я также написал aligner — программу, которая сопоставляет предложения и абзацы на английском с их переводами (набоковским) на русский. И когда создается определение слова, используется не только знание LLM, но и перевод на русский автора. Отдельно стоит рассказать, как работает алгоритм (я его сам придумал, потому что все, что нашел в сети, не работало как мне надо). Он находит сначала длинные предложения, и находит для самых длинных предложений их пару через косинусное сходство embedding-векторов, созданных через модель multilingual e5. Эти предложения становятся якорями. Затем, предполагая, что для длинных предложений ошибка почти исключена, находится самое длинное предложение уже между якорями, и все повторяется заново рекурсивно. Там много ситуаций, когда у предложения на русском нет аналога на английском и наоборот, когда предложение разбито на два, или наоборот два слиты в одно. Алгоритм как может это обрабатывает. Результат — очень неплохое качество выравнивания. До такой степени, что ошибки выравнивания уже не получается находить (но наверняка они есть). Так или иначе, оно нужно только для контекста для перевода слов, даже если там и есть редкие ошибки, то не страшно.

Вы бы купили такую книжку?

«Гравитация» — научный взгляд Александра Семихатова | 2026-03-09T14:56:52

У Семихатова очень классный фильм вышел про гравитацию. Конечно, прям слишком популярный, но понятно почему — надо не отпугнуть аудиторию. Очень классно и профессионально сделан.

У меня на полке книжка Семихатова лежит (»Все, что движется»). Тоже популярная, но там несколько серьёзнее изложение, местами с формулами и с кучей иллюстраций. Потом мнение о нём немного смазалось из-за за специфической манеры вести подкасты, постоянно перебивая гостя и отвечая на свои же вопросы демонстративно «круче» гостя. Но в фильме он прям красавец. Рекомендую

Ссылка в первом комментарии

Планы на 2026: от Галапагосских островов до PhD | 2026-01-20T04:44:36

Мой план на 2026:

— Уехать на неделю на Галапагоссы, в Эквадор (лето)

— Дописать и выпустить книжку по Information Retrieval (тоже лето, идет медленно, пара первых глав уже написана. Уже потратил на эту тему часов 50-100, то, что шло легко)

— Выпустить как минимум одну научную статью, видимо по Data Mining (весна). В идеале засабмиттить куда-нибудь в журнал (сложно). Уже потратил на эту тему часов 30, осталось еще дохрена.

— Сделать шаг к PhD. Найти профессоров, посетить универы, понять цену вопроса и оценить свои возможности и ресурсы.

— Продолжить изучать фундаментальную математику и не умереть (линейная алгебра, матанализ, тервер, статистика, классическое ML). В 2025 потратил на эту тему часов 200-400.

— Продолжить изучать Deep Learning и дойти до уровня «могу преподавать». В 2025 потратил на эту тему часов 100-200.

— Продолжить изучать Data Mining/NLP.

— Актуализировать мою книжку по RecSys, выпустив версию 2.0 включив обновления и исправления (осень 2026)

— Добиться видимого прогресса в живописи и игре на фортепиано. Конкретно, доучить серенаду Шуберта (Ständchen, D 889) и сделать хотя бы один холст, который не стыдно подарить.

Математические нотации: хаос под строгим порядком | 2025-12-02T15:30:20

Если вам кто-то говорит, что математика это точная наука — не верьте. Поскольку у меня сейчас хобби data science, я изучаю всякое разное из разных книжек и у меня взрывается мозг, как вообще может такое происходить в науке, где каждая мелочь должна укладываться в систему, иначе она идет лесом. Пока дело не доходит до нотаций. С ними там какой-то дикий бардак. Набор диалектов.

Взять, например, обычные логарифмы. «Стандарт» как обозначать логарифм зависит от того, в какой комнате университета вы находитесь. В матанализе и теории чисел log(x) почти всегда означает натуральный логарифм ln(x) база e. Производная от e^x равна e^x. Это «естественно». Писать ln им лень. Там, же где могут вылезти дясятичные логарифмы (computer science тот же), log(x) внезапно становится десятичным, а ln(x) — по основанию e.

Матожидание E имеет аргумент в квадратных скобках. При этом те же квадратные скобки в computer science используются для степ-фукции 0/1.

Или вот если вы видите вектор — это столбец или строка? В классической математике вектор — это всегда столбец. Чтобы умножить его на веса, мы пишем T после вектора и потом w для весов. Но во многих пейперов векторы мыслятся как строки. И если вы видите y = xW+b , то x — это не столбец, потому что иначе размерности не сойдутся. x тут — строка. но в следующей статье пишут Wx+b. И тут x — столбец 🙂

Угловые скобки . Для скалярного произведения (dot product) используется знак «⋅», но его плохо видно, особенно на доске, и я очень часто вижу, что математики используют угловые для dot product. Вообще по науке угловые используются для обобщенного (generalized) понятия inner product, где скалярное произведение частный случай. означает некий абстрактный способ перемножить a и b и получить число. Причем в квантовой механике это бы записывалось как . А еще для скалярного произведения некоторые используют кружок с точкой или x в кружочке.

Ну и для кучи еще в России тангенс — это tg, а в США — tan. А есть еще tan^-1 и arctan, что одно и то же, хотя x^-1 вообще означает 1/x

Интерактивное обучение 1986: «Химический тренажер» | 2025-11-23T15:55:06

У меня дома в Коломне есть книжка Химический тренажер 1986 года. Я таких никогда не до и не после не видел.

Материал каждой из 54 программ подразделяется на множество мелких, очень коротких частей, или рубрик. В конце каждой рубрики задается один или несколько вопросов. Это делается с целью проверить – действительно ли понято содержание данной рубрики. У каждого ответа есть место в книге, куда нужно перепрыгнуть, чтобы почитать, правильный ли ответ. Если ответ неправильный, там описывается, почему и задается новый вопрос. Если правильный — продвигаешься в этом квесте дальше.

Эти немцы в 1986 году сделали интерактивный учебник еще до того, как это стало модным.

Алхимия данных: размышления об алгоритмах RecSys | 2025-11-16T04:02:08

Заумный пост сегодня. Пока писал книгу по RecSys, поймал себя на мысли, что современный data science — это, по сути, алхимия 21 века. За половиной «лучших практик» в алгоритмах нет хорошего математического аппарата. Это набор эвристик, которые «просто работают». Причем как в 17 веке смешивали все подряд, так и сейчас смешивают, и если что-то сработало лучше, все остальные начинают делать так же. Ответа на вопрос «почему» просто нет.

Возьмем, к примеру, алгоритм NCF/NeuMF (Neural Collaborative Filtering). Там такая логика. Есть, скажем, миллион оценок пользователями фильмов. И 100 миллионов оценок пользователями еще на даны — пользователи ж не могут посмотреть все фильмы на свете. Но из этих 100 миллионов для конкретного пользователя надо выбрать кандидатов для рекламы. У алгоритма, конечно, есть фаза тренировки, когда рассчитываются веса, и стадия предсказания, когда эти веса используются на входящих данных.

(Что делает алгоритм. Там по сути ансамбль из три подалгоритмов, два из которых генерят каждый свое заключение, а потом их решения поступают на новую нейронку, третий алгоритм, который дает финальную рекомендацию. По-умному это гибрид GMF (матричная факторизация) и MLP (многослойный персептрон) Первый из этих двух основан на разложении матриц, а второй представляет собой нейронную сеть из нескольких слоев. На тренировочных данных подбираются веса.)

На один позитивный пример он берет 4 негативных. Потому четыре? Да просто это «не много и не мало». Будет ли 8 лучше? Неизвестно, но учиться будет точно дольше.

Почему размерность эмбеддингов 32? или 64? Нет никакой формулы. Это «золотая середина» между «тупой» моделью (мало k) и «переобученной» (много k).

Теперь про нейронку. Почему MLP-блок строят «башней» (64 -> 32 -> 16)? Почему не (50 -> 25 -> 10)? Почему между ними ReLU (а не tanh например)? Чистая эмпирика. Число слоев в башне тоже подбирается.

Почему у GMF и MLP-частей разные эмбединги на входе? Потому что авторы статьи попробовали, и так «получилось лучше». Мат. доказательства нет. Почему на финальный слой они идут с равными весами? Потому что потому.

Почему выходы двух путей «склеиваются» (concat), а не складываются или перемножаются? «Опыт показал, что так результат точнее».

И так во всем, вплоть до выбора оптимизатора Adam или «магического» learning_rate=0.001, хотя с этими по крайней мере понятен матаппарат.

То есть, у одного алгоритма как минимум с десяток параметров подобрано эмпирически, при этом однозначной уверенности, что они независимые друг от друга — нет. Зато многие из них зависят от датасета, но никто не знает как 😉

В общем, алхимия.

Интерактивная визуализация алгоритмов рекомендаций в новом open source приложении | 2025-11-11T05:23:46

У меня вышло электронное open source приложение к моей книжке Recommender Algorithms! Это «песочница», где можно «погонять» различные алгоритмы рекомендаций с разными настройками, и по каждому алгоритму посмотреть специфичную ему визуализацию, помогающую понять как он работает. Например, для таких алгоритмов как ItemKNN, SLIM или EASE ключевой визуализацией является heatmap, выученной матрицы схожести (item-item similarity matrix). Это позволяет увидеть, какие именно пары товаров модель считает «похожими» (или «влияющими» друг на друга). Для SLIM, например, полезна «Sparsity Plot» , показывающая, что матрица схожести действительно получилась разреженной. Для алгоритмов ассоциативных правил (Apriori, FP-Growth, Eclat) визуализация — это вообще не график, а интерактивные таблицы с найденными «Частотными наборами» (Frequent Itemsets) и сгенерированными «Правилами» (Association Rules) , которые можно фильтровать и сортировать.

Кроме этого, там есть параметрический механизм создания «игрового датасета» — Dataset Wizard. Работает он так — есть шаблонные датасеты, которые описывают items через характеристики. Например, рецепты через вкусы. Или фильмы через жанры. Система генерирует случайных пользователей со случайным набором характеристик из того же набора — причем там много ползунков, позволяющих это распределение сделать более контрастным или сложным. Далее создается уже матрица оценок пользователями айтемов — условно если совпадают характеристики пользователя и айтема, то оценка будет выше, так как «совпадают вкусы» и наоборот, если различаются, то оценка будет ниже. Тут тоже ползунки, добавляющие шум и scarcity — рандомно удаляется часть матрицы. На вход алгоритму рекомендаций характеристики товаров и пользователей не подаются, они скрыты, но они используются для визуализации результатов.

Третьим компонентом приложения является подбор гиперпараметров. По сути, это автоконфигуратор под конкретный датасет. Там используется итеративный подход, который намного эффективнее, чем полный перебор (Grid Search) или случайный поиск (Random Search). Если говорить кратко, система анализирует историю прошлых запусков (trials) и строит вероятностную «карту» (суррогатную модель) того, какие параметры, скорее всего, дадут лучший результат. Затем она использует эту карту, чтобы по-умному выбрать следующую комбинацию для проверки. Этот метод называется Последовательная оптимизация на основе суррогатных моделей (SMBO).

Код свободный, будет еще дополняться новыми алгоритмами и новыми визуализациями.

Ссылочка на код в комментариях.

Ссылочка на сайтик, где код развернут и где можно посмотреть на приложение, тоже в комментариях.

Запуск книги «Рекомендательные алгоритмы»: все, что нужно знать | 2025-10-25T17:36:38

I finally released a book on #RecSys! It’s called Recommender Algorithms, where I’ve compiled over 50 recommendation algorithms with detailed mathematical derivations, thorough explanations, and code examples.

It all started early this spring in Germany, when I attended an ACM conference and sketched out the first structure of the book while analyzing the talks from the RecSys track. And now, just six months later, it has come to life.

Why did I write it? Because neither online nor in print is there a single, accessible resource that deeply explores recommendation algorithms of various types and purposes. There are articles focused on small subsets, but collecting and systematizing approaches—from foundational methods to the very latest—seems to have never been done before. I don’t know if I succeeded, but I’d love to hear your feedback.

Please like & share!

P.S. Click at READ SAMPLE to see the first 40 pages. The table of contents is there as well.