Словесные паттерны в религиозной литературе: анализ на основе Project Gutenberg | 2026-05-02T03:28:59

Интересно, что если взять 8000 книг из библиотеки Гутенберга, и по каждой построить по словам граф, чтобы посмотреть, насколько «дружны» слова — если слово А часто встречается с Б, а Б с В, то как часто А встречается с В — для этого есть метрика — средний коэфициент кластеризации, а затем просто отсортировать книги по уменьшению этого коэфициента, то процентов 70 топа будут составлять религиозные книги — библии, книга мормонов, Коран. Ну хорошо, часть из них являются дубликатами в каком-то смысле, потому что Библия в разных вариантах остается Библией. Но тут явно сгруппированы ее разные части, то есть, они явно имеют общность в этих треугольных словах.

Но что объединяет вообще все книги этого топа — это то, что они написаны много лет назад или, как в случае The Night Land, написаны относительно недавно в том же стиле, как много лет назад.

Кстати, среди этих книг светится An Introductorie for to Lerne to Read, To Pronounce, and to Speke French Trewly. Это учебник по французскому языку, написанный на английском языке времен Тюдоров (примерно 1530-е годы). Soverayn lorde kyng Henry the Eight. Написал его Жиль дю Гез (Gilles Du Guez) — учитель французского языка при английском дворе. Этот конкретный учебник был составлен для принцессы Марии (будущей королевы Марии I, известной как «Кровавая Мэри»), дочери Генриха VIII. Зацените страничку из учебника. Очень прикольный английский 🙂 …ye must pronounce it letyng your lippes jointe close, so that there be but a lyttell hole in the middes.

Так вот, я вчитался в этот учебник. Там упоминается фрукт под названием «openarses». Как вы понимаете, это «открытые задницы» по-английски. Так в тюдоровской Англии называли мушмулу (medlar). Если вы погуглите, как выглядит мушмула, у вас не будет вопросов почему это openarses 😉

В анатомическом разделе (MEMBRES LONGYNG TO MANNES BODY) автор рядом с глазами и ушами упоминает «the nether beerde» (дословно — «нижняя борода»).

Преобразование чата в семантический поиск вопрос-ответ | 2026-04-30T04:05:37

За вечер сделал простую утилитку, которая вытаскивает чат Natural Language Processing за полтора года — там 65 тысяч сообщений, и переводит его в пары вопрос-ответ, по которым есть семантический поиск. При клике на результат поиска (слева) открывается диалог в чате. Подсвечиваются те сообщения, которые являются ответами на вопрос. Ну и сверху подсвечивается вопрос а оригинальной формулировке.

Как работает: система предполагает, что люди в основном делают reply to на сообщения, находящиеся относительно близко в прошлом. Если на одно сообщение делается несколько reply-to, то наверняка оно полезное, и зацепило в чате других. Система берет сообщения, начиная с того, на которое многие отвечали, и заканчивая последним в цепочке reply-to — и среди таких берет те, которые имеют минимум 3 reply-to к оригинальному вопросу. То есть, по сути, она вырезает из чата кусок, начинающийся популярным вопросом так, что после нижнего отреза скорее всего уже идет нерелевантное. Такие блоки могут накладываться друг на друга — например, если кто-то спросил, пока другие отвечали на что-то еще.

То есть, если пользователь А спросил какая погода, и ему ответили «хорошая», «плохая», «дождь», и еще было пять сообщений без reply-to, а потом кто-то ответил на «дождь» вопросом «почему дождь», и на этот вопрос ответили еще пятеро, то в систему попадет первый вопрос про погоду — кусок будет заканчиваться 13 сообщениями.

Дальше эти куски суммаризуются в вопрос-ответ.

Получается прикольно.

П. С. На скриншоте поисковый запрос не имеет отношения к результату поиска, потому что я сдуру сделал скриншот, когда запрос ещё поменял, а отправить ещё не нажал

Иллюзия скрытой линии | 2026-04-29T17:56:08

Пытаюсь понять, это у меня одного так глаза работают или нет 🙂 если смотреть на любое место, кроме слова «Омурбекова», то боковым зрением четко выделяется линия, показанная на втором скриншоте красным цветом (но конечно, она белая). Как только возвращаешь глаза на нее, линии нет. То есть, она видна только боковым зрением. Делитесь, как у вас 🙂

Синие лучи ядерной активности: Вавиловочеренковское излучение на САЭС | 2026-04-26T23:52:10

На картинке — вавиловочеренковское излучение. Это я в 2009 году был на САЭС, стою в зале с ядерным реактором. Вода на фото — для замедления нейтронов и охлаждения отработанных стержней с ядерным топливом. Свечение возникает, когда электроны вылетают из топлива со скоростью, превышающей фазовую скорость света в воде. Типа звукового барьера, только для света. По интенсивности этого свечения можно на глаз примерно определить, насколько «свежее» топливо находится в бассейне. Чем ярче и гуще синева, тем активнее идут процессы распада. Интересно, что черенковское излучение является причиной, по которой на многокилометровой глубине океанского дна не бывает абсолютной темноты.

Чуть не повторилась трагедия Чернобыля: история Ленинградской АЭС | 2026-04-26T17:32:09

К годовщине Чернобыля. Кто интересуется этой темой может быть и не знает, что практически подобная авария могла произойти на десять лет раньше на головном (самом первом блоке РБМК-1000) Ленинградской АЭС.

Там была практически аналогичная ситуация: одна турбина в работе, глушение реактора аварийной защитой и последующий вывод реактора на мощность.

Тогда ситуацию спас СИУР Михаил

Карраск, который действуя интуитивно и полагаясь на свой опыт управления промышленными реакторами, порциями по 4 штуки ввёл в реактор

12 стержней ручного регулирования

ПРЕЖДЕ чем нажать кнопку аварийной защиты.

Пару лет назад Карраск умер. Эта история почти никому не известна вне отрасли. За пруфами гуглите некролог на росатоме.

Собственно, техчасть. Главная опасность РБМК того времени заключалась в конструкции стержней управления. В нижней части они имели графитовые «вытеснители». При нажатии кнопки аварийной защиты стержни начинали идти вниз, и в первые секунды графитовые наконечники не глушили реактор, а наоборот — вытесняли воду и увеличивали мощность в нижней части активной зоны. Но как раз инструкция на случай проблем предполагала нажатие кнопки аварийной защиты. Если ты действовали по инструкции, «Чернобыль» случился бы раньше.

После аварии на ЛАЭС была создана комиссия. Специалисты (в том числе из ИАЭ им. Курчатова) указали на опасные конструктивные недостатки РБМК — положительный паровой коэффициент реактивности и неправильная конструкция стержней. К сожалению, масштабные изменения в конструкцию всех реакторов РБМК тогда внесены не были. Были даны лишь рекомендации по регламенту эксплуатации, которые, как показала история, оказались недостаточными для предотвращения трагедии в Чернобыле.

Тишина за шесть центов: революция в борьбе со храпом | 2026-04-24T18:25:22

Если второй половинке нужно залепить на время рот, у нас можно купить набор на 120 ротозалеплений, где-то выходит чуть меньше шести центов за молчание

Любовь в тесноте: крабы-моногамы черепахи | 2026-04-15T21:56:48

СЯУ, что у морских черепах под панцирем в районе ануса заводятся крабы-паразиты Planes minutus и сытного местечка хватает только для двоих, поэтому они образуют моногамную пару и живут в жопе черепахи долго и счастливо (не знал, что делать с этой информацией, поэтому принес ее сюда). По отношению к черепахе это комменсализм. Это когда одному хорошо (в нашем случае двоим), а третьему пофиг. Вижу научную работу, где утверждается, что они иногда путают черепаху с океанским мусором , а там уже помещается больше одной жены, и все, прощай моногамность. Зато, правда, никакой жопы

Противоестественная интуиция высоких размерностей | 2026-04-13T23:17:35

Я сейчас много работаю с векторами большой размерности, и некоторые штуки, которые раньше не осознавал до конца, начинают реально щекотать мозг. Наша 3D-интуиция там не просто не работает — она врет.

Оказывается, любые два случайных вектора в пространстве высокой размерности с огромной вероятностью будут почти перпендикулярны друг другу. Почти всё пространство — это один сплошной «экватор».

Собственно, на этом во многом и построено машинное обучение. Если ваши эмбеддинги внезапно показывают высокую косинусную близость (например, 0.8 — это не статистическая погрешность, а мощнейший сигнал. В 1000-мерном мире «случайно» так сойтись почти невозможно.

В таких пространствах почти вся масса данных сосредоточена в экстремально тонком поверхностном слое. «Внутренности» объектов математически пусты.

Это легко проверить на таком воображаемом примере. Возьмем «кожуру» многомерного шара толщиной всего в 1% от радиуса. Объем шара пропорционален радиусу в степени размерности.

• В трехмерном пространстве мякоть (0.99 радиуса) занимает 97% объема, возводите 0.99 в куб.

• В 1000D мякоть занимает всего 0.000043%.

Можно ещё по другому понять. Чтобы точка оказалась ближе к началу координат, нужно, чтобы по всем осям координаты были близко к началу координат. Стоит одной оси иметь большое значение, и все, точка улетела. Если брать точки случайно, то просто вероятность того, что они все разом будут ниже любого значения падает с ростом размерности, причём падает быстро.

Всё «мясо» данных всегда оказывается в кожуре. Любая выборка в High-D — это, по сути, набор граничных значений.

Для белого шума в высокой размерности расстояние между самым близким и самым дальним соседом становится почти одинаковым. Понятие «близости» просто деградирует.

Носов предвидел Инстаграм | 2026-04-07T13:04:23

Ещё в 1954 году Носов предвидел появление Инстаграмма

P.S. Не очень только понятно зачем разные шаблоны для разных цвет глаз и волос.

Взгляд сквозь иллюминатор: космос и космические масштабы | 2026-04-06T19:59:36

по сути, человек в космосе — это про эти дни и про дни в 50 лет назад. Международная космическая станция уже детский сад: в масштабах Земли она немногим выше, чем самолеты летают.