Этимологические родственники: от павлинов до гусаров | 11 апреля 2025 года, 17:22

Седьмой день этимологической раскопки. Возможно, последний — но кто знает. Скрипт по-прежнему гоняет словари, а я продолжаю удивляться, насколько далекие по смыслу слова могут быть близки по происхождению.

Начнём с яркого. Слова павлин и пунцовый — этимологические родственники. Павлин пришёл в русский через немецкий Pfäulein ← Pfau ← латинское pavō — «павлин». А пунцовый — это цвет мака во французском ponceau, производном от paon («павлин»), которое тоже от pavō. То есть пунцовый — это «павлиний» цвет. Кто бы мог подумать.

Аптека (apothecary) и бутик (boutique) — этимологические кузены. Аптека — от греческого ἀποθήκη («хранилище»). Boutique — через окситанский и французский, тоже от греческого, через латинское. Одна — про лекарства, другая — про платья. Но обе — про «место, где что-то хранится и продаётся», и обе имеют одного родителя.

Лассо и лацкан — два слова с противоположной эстетикой, но с общим латинским предком laqueus — «петля, аркан». Лассо пришло через испанский lazo → французский lasso — чистая ковбойская тематика. Лацкан — через немецкое Lätzchen, и тоже тянет ниточку от laqueus.

Костёл и шато звучат так, будто первый — про Вильнюс, второй — про Бордо. На деле — оба слова от латинского castellum («крепость»). Костёл пришёл через польский kościół — церковь как укреплённое сооружение. Шато — французский замок, из того же источника. Рыцари и батюшки — в одной этимологической лодке.

Шантаж и шансон — разные смыслы, но общее прошлое. Оба слова восходят к латинскому canō — «я пою». Шансон — напрямую: песня. Шантаж — через французское chantage, буквально «пение» в смысле «публичного обнародования» чего-то — т.е. компромата. Не знал, то есть связь.

Дефис и девиз — от латинского dīvidō («делить»), через разные языки. Дефис — «разделитель», заимствован через немецкий Divis. Девиз — «лозунг», пришёл из французского devise. Оба — изначально про деление, но один делит слова, другой — смыслы.

Подошва и почва — этимологические двойники. Оба слова происходят от древнеславянского подъшьва — «основание, низ». Одна — в обуви, другая — под ногами. По сути, это одно и то же: то, на чём ты стоишь. Впрочем, если подумать — логично.

Гусар и курс — неожиданные товарищи по этимологии. Гусар — через сербское gusar («разбойник»), от латинского cursus — «бег, курс». То есть сначала: «беглец», потом: «налётчик», потом: «гусар». Курс — уже напрямую от cursus. Всё от одного латинского глагола currō — «бежать». Рыцари, университеты, рынок валют — всё бежит.

Слова know, note, noble, cognition, notorious, gnosis и т.п. — все в той или иной форме восходят к праиндоевропейскому корню ǵneh₃- — «знать, узнавать».

Cow и beef — тоже двойники: одна от германского корня через англосаксонский, другая — от латинского bos через французское boeuf. Исторически из gʷṓws.

Решил поискать слова, заканчивающиеся на «аж», но не французские. Нашел с десяток, но проверку прошел только «Инструктаж». Никакого instructage, конечно, во французском нет. Французской морфологии — больше, чем французского смысла.

Спасибо, что читали эти посты все семь дней. Думаю, дальше можно продолжать уже порционно, по мере накопления.

Напомню, все это вытаскивалось через автоматическую обработку этимологического словаря. Скрипт находил оттуда слова, по смыслу максимально далекие друг от друга, но имеющие общего родителя, плюс фильтровал более-менее частотные слова. К сожалению, словарь не идеален по разметке и в процессе пропускалось очень много, но зато результат можно было неспешно и не без удовольствия обрабатывать.

Читайте больше такого добра кликая сюда –> #RaufLikesEtymology

Слова-далекие родственники: открытия лингвистического скрипта | 07 апреля 2025 года, 16:32

Написал скрипт, который находит пары слов, связанные общим происхождением, но при этом эти слова определяются как далекие друг от друга по современному значению.

Собственно, я этот проект придумал полтора часа назад, между встречами что-то набросал с помощью питона и ChatGPT и вот первые результаты. Важно, что результаты идут не из ChatGPT, а из скрипта, работающего со словарями.

Например, grammar – glamour. Слово glamour происходит от шотландского произношения слова grammar (в смысле «знание», особенно магическое). Ранняя ассоциация грамматики с тайным знанием трансформировалась в «гламур» как «волшебное очарование».

Оказалось, что Jack – это уменьшительная форма от John, эволюционировавшая через Jankin.

Оказалось, что espresso и sprain имеют общий корень —латинский exprimere — «выжимать, извлекать».

debut и butt. Имеют общий корень: старофранцузское but — «цель». Debut: от французского débuter — «начинать игру», буквально «делать первый удар по цели». Butt: в значении «мишень» (e.g. the butt of a joke), тоже от but — «цель, мишень».

Технические подробности: Что делает скрипт?

1. Сначала скачивает огромный массив данных английского Викисловаря (Kaikki) и большую языковую модель FastText, которая знает «смысл» слов в виде векторов.

2. Затем он анализирует этимологию (происхождение) слов, находя их общих «предков» – древние слова (этимоны), от которых произошли современные.

3. Затем он отбирает только те слова, которые являются полноценными словарными статьями в Викисловаре и достаточно часто встречаются в современном английском языке (отсеивая очень редкие или архаичные слова).

4. Затем измеряет «расстояние» между значениями, используя векторы слов (word embeddings) из FastText. Сравнивая эти векторы, скрипт вычисляет, насколько сильно разошлись значения у слов с общим корнем. Низкое сходство векторов означает большую разницу в значении.

5. Затем находит «дальних родственников»: В итоге скрипт ищет и выводит пары общеупотребительных слов, которые когда-то были «родственниками», но сегодня их значения максимально далеки друг от друга.

Скрипт пока все еще генерит довольно много «шума», но который понятно как очищать.

Читайте больше такого добра кликая сюда —> #RaufLikesEtymology