Словесные паттерны в религиозной литературе: анализ на основе Project Gutenberg | 2026-05-02T03:28:59

Интересно, что если взять 8000 книг из библиотеки Гутенберга, и по каждой построить по словам граф, чтобы посмотреть, насколько «дружны» слова — если слово А часто встречается с Б, а Б с В, то как часто А встречается с В — для этого есть метрика — средний коэфициент кластеризации, а затем просто отсортировать книги по уменьшению этого коэфициента, то процентов 70 топа будут составлять религиозные книги — библии, книга мормонов, Коран. Ну хорошо, часть из них являются дубликатами в каком-то смысле, потому что Библия в разных вариантах остается Библией. Но тут явно сгруппированы ее разные части, то есть, они явно имеют общность в этих треугольных словах.

Но что объединяет вообще все книги этого топа — это то, что они написаны много лет назад или, как в случае The Night Land, написаны относительно недавно в том же стиле, как много лет назад.

Кстати, среди этих книг светится An Introductorie for to Lerne to Read, To Pronounce, and to Speke French Trewly. Это учебник по французскому языку, написанный на английском языке времен Тюдоров (примерно 1530-е годы). Soverayn lorde kyng Henry the Eight. Написал его Жиль дю Гез (Gilles Du Guez) — учитель французского языка при английском дворе. Этот конкретный учебник был составлен для принцессы Марии (будущей королевы Марии I, известной как «Кровавая Мэри»), дочери Генриха VIII. Зацените страничку из учебника. Очень прикольный английский 🙂 …ye must pronounce it letyng your lippes jointe close, so that there be but a lyttell hole in the middes.

Так вот, я вчитался в этот учебник. Там упоминается фрукт под названием «openarses». Как вы понимаете, это «открытые задницы» по-английски. Так в тюдоровской Англии называли мушмулу (medlar). Если вы погуглите, как выглядит мушмула, у вас не будет вопросов почему это openarses 😉

В анатомическом разделе (MEMBRES LONGYNG TO MANNES BODY) автор рядом с глазами и ушами упоминает «the nether beerde» (дословно — «нижняя борода»).

Иллюзия скрытой линии | 2026-04-29T17:56:08

Пытаюсь понять, это у меня одного так глаза работают или нет 🙂 если смотреть на любое место, кроме слова «Омурбекова», то боковым зрением четко выделяется линия, показанная на втором скриншоте красным цветом (но конечно, она белая). Как только возвращаешь глаза на нее, линии нет. То есть, она видна только боковым зрением. Делитесь, как у вас 🙂

Противоестественная интуиция высоких размерностей | 2026-04-13T23:17:35

Я сейчас много работаю с векторами большой размерности, и некоторые штуки, которые раньше не осознавал до конца, начинают реально щекотать мозг. Наша 3D-интуиция там не просто не работает — она врет.

Оказывается, любые два случайных вектора в пространстве высокой размерности с огромной вероятностью будут почти перпендикулярны друг другу. Почти всё пространство — это один сплошной «экватор».

Собственно, на этом во многом и построено машинное обучение. Если ваши эмбеддинги внезапно показывают высокую косинусную близость (например, 0.8 — это не статистическая погрешность, а мощнейший сигнал. В 1000-мерном мире «случайно» так сойтись почти невозможно.

В таких пространствах почти вся масса данных сосредоточена в экстремально тонком поверхностном слое. «Внутренности» объектов математически пусты.

Это легко проверить на таком воображаемом примере. Возьмем «кожуру» многомерного шара толщиной всего в 1% от радиуса. Объем шара пропорционален радиусу в степени размерности.

• В трехмерном пространстве мякоть (0.99 радиуса) занимает 97% объема, возводите 0.99 в куб.

• В 1000D мякоть занимает всего 0.000043%.

Можно ещё по другому понять. Чтобы точка оказалась ближе к началу координат, нужно, чтобы по всем осям координаты были близко к началу координат. Стоит одной оси иметь большое значение, и все, точка улетела. Если брать точки случайно, то просто вероятность того, что они все разом будут ниже любого значения падает с ростом размерности, причём падает быстро.

Всё «мясо» данных всегда оказывается в кожуре. Любая выборка в High-D — это, по сути, набор граничных значений.

Для белого шума в высокой размерности расстояние между самым близким и самым дальним соседом становится почти одинаковым. Понятие «близости» просто деградирует.

Лексическая карта «Лолиты» Набокова | 2026-04-02T15:56:00

Доделал первую версию книги-словаря по «Лолите» Набокова. На графике показано как распределяется сложность лексики по страницам книги. Нижний график усредняет 25 предложений, по вертикали — число сложных слов, цвета означают сложность/редкость (фиолетовые — самые сложные, красные — менее сложные, желтые — еще менее). Но это я уже убрал еще два уровня, и в целом для иностранца там все пять уровней непростые. В книге пунктиром отмечается уровень 3, простой рамкой — уровень 4, а двойной — уровень 5. Всего сейчас 5794 слова, из которых 541 пятого уровня, 1070 — четвертого, 1883 — третьего, 1393 — второго и 54 — первого (самые простые). Учитывая, что в первой версии получилось 1148 страниц, нужно будет очень сильно подчищать словарь, убирая оттуда то, без чего можно обойтись. Это в существенной степени слова первого и второго уровней, и отдельные из третьего и четвертого. Редкость слов рассчитывается тремя способами : через LLM, и через два списка частот слов англ языка в корпусе текстов (300К слов).

Не все слова сложные. Например, в предложении «With the ebb of lust, an ashen sense of awfulness, abetted by the realistic drabness of a gray neuralgic day, crept over me and hummed within my temples.» наверняка знающему неплохо английский не знакомы слова ebb, abet, drabness, а все остальное знакомо, но чуть снизь требования к читателю, и словарь может быть уже не очень полезным для таких.

Или вот предложение:

Homo pollex of science, with all its many sub-species and forms; the modest soldier, spic and span, quietly waiting, quietly conscious of khaki’s viatric appeal; the schoolboy wishing to go two blocks; the killer wishing to go two thousand miles; the mysterious, nervous, elderly gent, with brand-new suitcase and clipped mustache; a trio of optimistic Mexicans; the college student displaying the grime of vacational outdoor work as proudly as the name of the famous college arching across the front of his sweatshirt; the desperate lady whose battery has just died on her; the clean-cut, glossy-haired, shifty-eyed, white-faced young beasts in loud shirts and coats, vigorously, almost priapically thrusting out tense thumbs to tempt lone women or sadsack salesmen with fancy cravings.

У меня даже браузер подчеркивает тут четыре слова.

У меня есть определения слов на английском, немецком, французском, русском. Я столкнулся с тем, что для разных языков разные слова из текста считаются сложными, а они у меня единые. Так что придется отдельно помечать, например, французские слова в английском тексте, чтобы не включались во французскую версию, так как там читатель знает, например, что такое quel mot.

В общем, на выходных буду убирать, видимо, половину, в ручном режиме, и тогда можно делать обложку и выставлять на Amazon.

Эволюция понимания: истина или комфорт? | 2026-03-18T13:29:27

Мне пришла интересная философская мысль в голову. А что если эволюция существует не в нас (не в биологической жизни), а в нашей системе понимания законов мира 🙂 Ну то есть система понимания законов мира подстраивается под то, чтобы более менее все сходилось. То есть мозг строит внутреннюю галлюцинацию, и постоянно подавляет ее так, чтобы минимизировать ошибку предсказания. и тут большой вопрос — наша система понимания стремится к истине (абсолютному соответствию миру) или просто к комфорту (чтобы картинка в голове не рассыпалась)

С этим подходом есть проблема, что если не заглядывать в будущее, то на каждой итерации система понимания корректирует свою модель так, чтобы работало предсказание, но одновременно создаёт проблемы для следующей итерации, так как приходится учитывать и их уже. В итоге этот слоёный пирог накапливает противоречий и ограничений в таком объёме, что каждая следующая теория все сложнее и сложнее и обрастает множеством необъяснимых дыр. Появляется тёмная материя, излучения чёрных дыр, гравитационные волны и прочее прочее чтобы хоть как-то натянуть сову на глобус

Но да, это родственно вопросу математику открыли или изобрели

Мировой калейдоскоп названий индейки | 2026-03-09T21:36:50

Задумался, почему индейку называют тут turkey и как ее называют в Турции. В Турции ее называют hindi — индейкой! Решил посмотреть, а как тогда в Индии ее называют. Ха, на хинди ее называют турецкой (टर्की). Смотрим на других языках. Португальский — Peru. То есть, у них она перуанская. По-испаски — pavo, то есть отсылка к павлину 🙂 «pavone» в итальянском — павлин. По-французски — dinde, потому что эта птица пришла из Вест-Индии (Америки). Произошло от poule d’Inde — «курица из Индии/Вест-Индии». Греческий — «Γαλοπούλα» «французская птица».

«Гравитация» — научный взгляд Александра Семихатова | 2026-03-09T14:56:52

У Семихатова очень классный фильм вышел про гравитацию. Конечно, прям слишком популярный, но понятно почему — надо не отпугнуть аудиторию. Очень классно и профессионально сделан.

У меня на полке книжка Семихатова лежит (»Все, что движется»). Тоже популярная, но там несколько серьёзнее изложение, местами с формулами и с кучей иллюстраций. Потом мнение о нём немного смазалось из-за за специфической манеры вести подкасты, постоянно перебивая гостя и отвечая на свои же вопросы демонстративно «круче» гостя. Но в фильме он прям красавец. Рекомендую

Ссылка в первом комментарии

Реки и холмы: игра слов в топонимике | 2026-03-08T02:54:57

Читаю Набокова, там «…with the dash of the Danube in his veins…». Оказалось, Danube — это Дунай. Но это ладно, ерунда, интереснее другое. Что Дон, Дунай, Днестр, Днепр, Донец, Двина, и Дисна по сути плюс-минус означают одно и то же — река. Видимо, древние люди не всегда отличались бурной фантазией в топонимике. Если ты живешь у воды, ты называешь её просто «Река». Со временем приходят другие народы, слышат это слово, принимают его за имя собственное и немного меняют под свой акцент. Так «Река» (Danu) превратилась в десяток разных имен на карте Европы.

Река Волга по сути тоже просто «река». Ну ок, там слегка иначе, «Волга» происходит от праславянского *Vòlga, что буквально означает «влага» или «вода».

А еще оказалось, что пустыня Сахара называется так, потому что Сахара (الصحراء) — это пустыня. А пустыня Гоби называется Гоби, потому что Гоби на монгольском — это пустыня.

Пока гуглил, наткнулся еще на одну забавную штуку. Есть такое место в Англии, Torpenhow Hill. Название складывается из четырех разных языковых пластов: Tor — на древнеанглийском «холм», Pen — на камбрийском «холм», How — на древнескандинавском «холм», Hill — на современном английском «холм». Итог: «Холм-холм-холм-холм». Вероятно, каждый новый народ, приходящий в эту местность, не понимал, что Tor, Pen и How — это уже название горы, и добавлял свой вариант слова «холм».

Метр, маятник и магия числа π | 2026-03-01T17:11:27

Оказалось, что π² ≈ g — это не какое-то мистическое совпадение. Когда первые ученые размышляли над определением метра, было одно элегантное предложение: сделать метр равным длине маятника, которому требуется ровно одна секунда, чтобы качнуться из одной стороны в другую.

Для математического маятника период колебаний рассчитывается по формуле: T = 2π √(L / g). Если мы примем длину L = 1 метр и установим полный период T = 2 секунды (чтобы на один полувзмах уходила ровно 1 секунда), из уравнения следует: g = π² (м/с²).

Позднее определение метра изменили: его привязали к одной десятимиллионной части расстояния от экватора до Северного полюса по меридиану, проходящему через Париж. Но это геодезическое определение было вдохновлено более ранней идеей с маятником. И, что примечательно, оба подхода совпадают с точностью до 1%. По сути, поскольку старое «маятниковое» определение долгое время было основным кандидатом, значения подогнали так, чтобы новый метр был удобен и близок к привычным на тот момент измерениям.

А еще интересно, что число секунд в году примерно соответствует числу пи * 10^7. Орбитальная скорость Земли составляет около v = 30 км/с. Расстояние от Солнца до Земли — примерно r = 150 000 000 км. Таким образом, за год Земля проходит путь около d = 2 * π * r. Тогда период обращения равен T = d/v = π * 2 * r/v = π * 10⁷ секунд.

Где папа? Математическая загадка. | 2026-02-16T20:04:36

Мама старше сына на 21 год. Через шесть лет она станет старше его в 5 раз.

Вопрос:

Где папа?