Словесные паттерны в религиозной литературе: анализ на основе Project Gutenberg | 2026-05-02T03:28:59

Интересно, что если взять 8000 книг из библиотеки Гутенберга, и по каждой построить по словам граф, чтобы посмотреть, насколько «дружны» слова — если слово А часто встречается с Б, а Б с В, то как часто А встречается с В — для этого есть метрика — средний коэфициент кластеризации, а затем просто отсортировать книги по уменьшению этого коэфициента, то процентов 70 топа будут составлять религиозные книги — библии, книга мормонов, Коран. Ну хорошо, часть из них являются дубликатами в каком-то смысле, потому что Библия в разных вариантах остается Библией. Но тут явно сгруппированы ее разные части, то есть, они явно имеют общность в этих треугольных словах.

Но что объединяет вообще все книги этого топа — это то, что они написаны много лет назад или, как в случае The Night Land, написаны относительно недавно в том же стиле, как много лет назад.

Кстати, среди этих книг светится An Introductorie for to Lerne to Read, To Pronounce, and to Speke French Trewly. Это учебник по французскому языку, написанный на английском языке времен Тюдоров (примерно 1530-е годы). Soverayn lorde kyng Henry the Eight. Написал его Жиль дю Гез (Gilles Du Guez) — учитель французского языка при английском дворе. Этот конкретный учебник был составлен для принцессы Марии (будущей королевы Марии I, известной как «Кровавая Мэри»), дочери Генриха VIII. Зацените страничку из учебника. Очень прикольный английский 🙂 …ye must pronounce it letyng your lippes jointe close, so that there be but a lyttell hole in the middes.

Так вот, я вчитался в этот учебник. Там упоминается фрукт под названием «openarses». Как вы понимаете, это «открытые задницы» по-английски. Так в тюдоровской Англии называли мушмулу (medlar). Если вы погуглите, как выглядит мушмула, у вас не будет вопросов почему это openarses 😉

В анатомическом разделе (MEMBRES LONGYNG TO MANNES BODY) автор рядом с глазами и ушами упоминает «the nether beerde» (дословно — «нижняя борода»).

Глоссарий к «Лолите» Набокова: не просто словарь, а книга-путеводитель | 2026-04-08T11:24:22

Я наконец доделал до конца книгу The Reader’s Glossary — это по сути словарь на 5200 слов по «Лолите» Набокова, но организовыванный не в алфавитном порядке, как обычные словари, а в порядке встречаемости сложных слов, с разбивкой по главам и с указанием контекста слова или фразы. Сайт — readersglossary точка com (в первом комменте). Предполагается, что им будут пользоваться в том числе при чтении оригинала как книга-компаньон. Да, она вдвое больше 🙂

Словарь получился довольно толстым — на 600-700 страниц. Он доступен на четырех языках — русском, английском, французском и немецком. Также перевод (RU, FR, DE) или разъяснение (на англ) не абстрактные, а контекстные, да еще и с учетом того, как тот или иной фрагмент переводил сам Набоков с английского («Лолита» писал сначала на английском, потом переводил на русский).

У меня на сайте есть огромные фрагменты этих словарей RU,FR,DE,EN на ознакомление (каждая — около 1/3 полного объема).

Также полноценный интерактивный словарь на сайте, где можно вбить слово и посмотреть перевод или разъяснение. В словаре собраны в основном сложные слова, но мы знаем, что сложность для каждого имеет свое определение, поэтому все слова разбиты на три категории и выделены разными рамочками. Наверное, для начитанного англофона первая категория (пунктиром) вообще бесполезная (это около 50% словаря), для неначитанного, наверное, процентов 20 бесполезны. Но я решил дальше не резать, потому что книга не только для англофонов, но и для тех, кому английский второй язык, и там эти рамочки пунктирные очень даже кстати.

В целом, я это делал «для себя и друзей», just for fun, а не как коммерческий проект. Поэтому я совершенно трезво понимаю, что аудитория у нее супернишевая, и если хотя бы раз в неделю будет появляться кто-то, кому она может быть полезна, уже приятно.

Несмотря на то, что это было что-то типа хобби, времени книжки потребовали много. Для того, чтобы получить то, что получилось, я разработал с десяток приложений/скриптов, из которых пара имеют свой интерактивный UI, в котором я в общей сложности за два месяца работы провел много часов. И конечно, во многом разобрался, собственно, это и есть главный фан от процесса.

Итак, приходите на сайт — readersglossary точка ком. Ссылка в комментариях

P.S. На русском языке — только как PDF пока. Amazon не дает продавать книги на русском, только на небольшом количестве европейских языков в дополнение к английскому. Французская и немецкая версии словаря выйдут на Амазоне через неделю где-то.

Лексическая карта «Лолиты» Набокова | 2026-04-02T15:56:00

Доделал первую версию книги-словаря по «Лолите» Набокова. На графике показано как распределяется сложность лексики по страницам книги. Нижний график усредняет 25 предложений, по вертикали — число сложных слов, цвета означают сложность/редкость (фиолетовые — самые сложные, красные — менее сложные, желтые — еще менее). Но это я уже убрал еще два уровня, и в целом для иностранца там все пять уровней непростые. В книге пунктиром отмечается уровень 3, простой рамкой — уровень 4, а двойной — уровень 5. Всего сейчас 5794 слова, из которых 541 пятого уровня, 1070 — четвертого, 1883 — третьего, 1393 — второго и 54 — первого (самые простые). Учитывая, что в первой версии получилось 1148 страниц, нужно будет очень сильно подчищать словарь, убирая оттуда то, без чего можно обойтись. Это в существенной степени слова первого и второго уровней, и отдельные из третьего и четвертого. Редкость слов рассчитывается тремя способами : через LLM, и через два списка частот слов англ языка в корпусе текстов (300К слов).

Не все слова сложные. Например, в предложении «With the ebb of lust, an ashen sense of awfulness, abetted by the realistic drabness of a gray neuralgic day, crept over me and hummed within my temples.» наверняка знающему неплохо английский не знакомы слова ebb, abet, drabness, а все остальное знакомо, но чуть снизь требования к читателю, и словарь может быть уже не очень полезным для таких.

Или вот предложение:

Homo pollex of science, with all its many sub-species and forms; the modest soldier, spic and span, quietly waiting, quietly conscious of khaki’s viatric appeal; the schoolboy wishing to go two blocks; the killer wishing to go two thousand miles; the mysterious, nervous, elderly gent, with brand-new suitcase and clipped mustache; a trio of optimistic Mexicans; the college student displaying the grime of vacational outdoor work as proudly as the name of the famous college arching across the front of his sweatshirt; the desperate lady whose battery has just died on her; the clean-cut, glossy-haired, shifty-eyed, white-faced young beasts in loud shirts and coats, vigorously, almost priapically thrusting out tense thumbs to tempt lone women or sadsack salesmen with fancy cravings.

У меня даже браузер подчеркивает тут четыре слова.

У меня есть определения слов на английском, немецком, французском, русском. Я столкнулся с тем, что для разных языков разные слова из текста считаются сложными, а они у меня единые. Так что придется отдельно помечать, например, французские слова в английском тексте, чтобы не включались во французскую версию, так как там читатель знает, например, что такое quel mot.

В общем, на выходных буду убирать, видимо, половину, в ручном режиме, и тогда можно делать обложку и выставлять на Amazon.

Эффективное изучение языка с электронным словарем Набокова | 2026-03-15T23:20:05

Блин, реально ж удобно. Сижу читаю.

Паттерн использования такой: держу телефон в руках. Там в apple books эта и книжка. Видишь незнакомое слово — оно с большой вероятностью будет в списке слов главы. Определение учитывает перевод самого Набокова. Дальше смотришь на пару слов вперёд, убираешь телефон, продолжаешь читать. Встречаешь те слова, и они ещё в кратковременной памяти, и ура, понимаешь. В паузу загружаешь в мозг следующие пару слов. В руках надо держать телефон и перелистывать, каждая страница содержит 4-5 определений.

Сейчас каждое слово имеет определения на английском (толкование), французском, и немецком. Соответственно, я могу издать четыре книжки.

В целом, мой уровень английского совпадает с предположениями моей программки о том , какие слова будут вызывать сложность. Но когда-нибудь мне надо такое для французского, и там понадобится для и каждого слова некоторую оценку уровня сложности, потому что мне будут непонятны и некоторые базовые слова тоже. Не уверен, что книжка с базовыми словами будет удобна. С редкими — точно удобна.

Словарь Набокова: Мультиязычное путешествие по текстам писателя | 2026-03-15T18:30:39

Читаю Набокова и решил отвлечься и сделать удобную программку «Словарь Набокова» и подумываю продавать его на Амазоне как книгу. По сути, выглядит это так (см скриншот) — определения сложных слов на английском, русском, немецком и французском, идущих в том же порядке, в каком они идут в оригинальной книге.

Вы бы купили такую книжку?

Для того, чтобы корректно сделать их определения, я также написал aligner — программу, которая сопоставляет предложения и абзацы на английском с их переводами (набоковским) на русский. И когда создается определение слова, используется не только знание LLM, но и перевод на русский автора. Отдельно стоит рассказать, как работает алгоритм (я его сам придумал, потому что все, что нашел в сети, не работало как мне надо). Он находит сначала длинные предложения, и находит для самых длинных предложений их пару через косинусное сходство embedding-векторов, созданных через модель multilingual e5. Эти предложения становятся якорями. Затем, предполагая, что для длинных предложений ошибка почти исключена, находится самое длинное предложение уже между якорями, и все повторяется заново рекурсивно. Там много ситуаций, когда у предложения на русском нет аналога на английском и наоборот, когда предложение разбито на два, или наоборот два слиты в одно. Алгоритм как может это обрабатывает. Результат — очень неплохое качество выравнивания. До такой степени, что ошибки выравнивания уже не получается находить (но наверняка они есть). Так или иначе, оно нужно только для контекста для перевода слов, даже если там и есть редкие ошибки, то не страшно.

Вы бы купили такую книжку?

Мировой калейдоскоп названий индейки | 2026-03-09T21:36:50

Задумался, почему индейку называют тут turkey и как ее называют в Турции. В Турции ее называют hindi — индейкой! Решил посмотреть, а как тогда в Индии ее называют. Ха, на хинди ее называют турецкой (टर्की). Смотрим на других языках. Португальский — Peru. То есть, у них она перуанская. По-испаски — pavo, то есть отсылка к павлину 🙂 «pavone» в итальянском — павлин. По-французски — dinde, потому что эта птица пришла из Вест-Индии (Америки). Произошло от poule d’Inde — «курица из Индии/Вест-Индии». Греческий — «Γαλοπούλα» «французская птица».

Создание приложения для изучения языка в полёте | 2025-12-01T15:45:11

Кстати, вчера утром, пока ждал у выхода на посадку в Майами, я быстро с помощью Gemini написал приложение для изучения французского языка по идее, которую набросал товарищу, пока ехал в аэропорт, а потом в полёте использовал это приложение.

Идея в том, что в незнакомом тексте на иностранном языке пользователь сначала помечает незнакомые слова, а затем видит их переводы — но без оригинального текста, а потом возвращается к самому тексту — но уже не видя переводов. То есть, это как если бы «словарь был в соседней комнате». Гипотеза, что такой метод помогает лучше запоминать, чем когда перевод показывается сразу при клике на слово, и когда не надо прилагать усилия.

Приятно, что создание приложения с нуля до готового варианта заняло всего около 35-40 минут, а потом я еще какое-то время пользовался им в полёте, без интернета. Так как все переводы всех слов/фраз уже сделались заранее.

Только что развернул его на Render. Тоже приятно, что показать код в работе бесплатно и заняло еще минут 10.

https://readandlearn.onrender.com/

Борьба с искусственным интеллектом в изучении языков | 2025-08-19T23:43:35

Мне сегодня грок взорвал мозг. Говорю поучи меня французскому. Он: ок, как будет «книга»? Я говорю «лё ливр». Он говорит «неправильно! ля ливра». 😳Машина все равно сама едет, решил записать диалог. Не убеждается. Никак, стоит на своём. Ля ливра и всё. Боюсь, Грок так плохому научит в своём Language Tutor mode.

Вспомнилась история из «Воспоминание о Пушкине” М. Е. Юзефовича, относящееся к 1829 году:

«<Во время похода на Эрзерум> с ним было несколько книг, в том числе и Шекспир. Однажды он в нашей палатке переводил брату и мне некоторые из его сцен. Я когда-то учился английскому языку, но, недоучившись как следует, забыл его впоследствии. Однакож все-таки мне остались знакомы его звуки. В чтении же Пушкина английское произношение было до того уродливо, что я заподозрил его знание и решил подвергнуть его экспертизе. Для этого на другой день я зазвал к себе его родственника, Захара Чернышева, знавшего английский язык, как свой родной, и, предупредив его в чем было дело, позвал к себе и Пушкина с Шекспиром. Он охотно принялся переводить его нам. Чернышев при первых же словах, прочитанных Пушкиным, расхохотался: “Ты скажи прежде, на каком языке читаешь?” Расхохотался в свою очередь и Пушкин, объяснив, что он выучился по-английски самоучкой, а потому читает английскую грамоту, как латинскую. Но дело в том, что Чернышев нашел перевод совершенно правильным и понимание языка безукоризненным».

Anna Derevenitskaya