Скотосбрасыватель, Лолита и темп чтения | 14 ноября 2024 года, 00:24

Знаете ли вы что такое скотосбрасыватель (английский вариант — cowcatcher, дословно коровоуловитель). Это красная штука впереди паровоза.

В итоге где-то на половине книги Лолиты отложил английский вариант, и начал сначала читать русский. С английским не хватает темпа чтения, меня тянет в каждом абзаце что-то гуглить. В русском вот пошёл гуглить только на 55-й странице.

Хотя вру. Ещё тормознул на фразе tant pis, которую Набоков оставил на французском. Видимо, ее невозможно коротко перевести на русский или английский (в сноске ”too bad”? — дурацкий перевод). Она используется для выражения сожаления о том, что что-то пошло не так, но при этом предполагает принятие ситуации, так как ничего изменить уже нельзя. Мне кажется, идеальный перевод был бы «упс!»

Вспоминая «Это мой ребенок»: Забавные моменты из прошлого | 11 ноября 2024 года, 21:07

В далеком 2012 мы с Надей и семилетней Машей попали в телевизор, на передачу «Это мой ребенок» с Татьяной Лазаревой (через десять лет названной государством инагентом). Сегодня руки дошли до диска с видео. Вот вам три коротких фрагмента по несколько минут, они очень забавные!

Шиба-ину: уникальные привычки в еде и дрессировке | 11 ноября 2024 года, 16:22

Вот почему нашу шибу ину сложно дрессировать. У него еда вообще не мотиватор. Он последний раз ел не меньше 12 часов назад. Мы уже давно позавтракали, приближается время обеда. И вот приносишь теплое вареное мясо, которое он в целом любит, но если у него не пришло еще время обеда, он не понимает, зачем ему принесли мясо, когда он не просил. И он такой — чё принес, иди положи в миску, приду съем как-нибудь. И так было все 3.5 года. Причем есть он будет почти всегда тогда, когда дома кто-то есть. Если дома никого нет, он лучше поспит. То есть, оставлять ему еду и уезжать — это почти гарантия, что приедешь, и еда будет нетронутой. В целом-то он любит вкусное, и когда время обедать или ужинать, то он с большим удовольствием ест то, что ему даешь.

В целом, когда он сомневается, есть мясо из миски или нет, и уже, подумав, склонился уходить, срабатывает вариант вытащить кусок мяса и дать с ладошки. Если он его съест (а если он у миски стоит, то более вероятно, что съест с ладошки), то почти наверняка у него изменится решение. И через минуту миска будет уже пустая.

Или вот сыр. С одной стороны, когда мы наливаем вино и берем нарезку сыра, чтобы было интереснее смотреть сериал или кино, Юка тоже приходит смотреть сыр, и у него прям слюньки текут. Съест хоть килограм. В любое время. Но нужно налить вино и включить проектор. Если же прийти с сыром в произвольное время или вообще в любое время на улице, то на сыр будет такая же реакция, как на камень.

Джеймс Клиффорд: поэт, который никогда не был | 04 ноября 2024 года, 15:33

Это строки из стихотворения «Квадрат» английского поэта Джеймса Клиффорда в переводе Владимира Лившица. Клиффорд был человеком удивительной судьбы, смятым в тисках двух мировых войн. Он родился накануне Первой мировой войны, в 1913 году в Лондоне, а погиб в 1944 году, отражая немецкую танковую атаку в Арденнах.

Парадоксально, но наследие молодого английского поэта в Советском Союзе было известно гораздо лучше, чем на его родине. Пока в Англии задавались вопросом: «Кто он, мистер Клиффорд?», в СССР с середины шестидесятых годов регулярно публиковались его новые стихи. За это, конечно, следовало благодарить его переводчика — Владимира Лившица. Именно он первым перевел на русский язык знаменитые, будто бы знакомые строки из «Отступления в Арденнах»: «Нас оставалось пятеро. В промозглом блиндаже. Командованье спятило. И драпало уже».

Но Лившиц не просто перевел эти строки, а как бы «благословил» их, поскольку Джеймс Клиффорд, молодой английский поэт, павший при отражении немецкой атаки в 1944 году, для Лившица был не только объектом перевода, но и его собственным созданием. Дело в том, что настоящего Джеймса Клиффорда, который якобы родился в Лондоне, рано потерял родителей и воспитывался дедушкой — знатоком английского и шотландского фольклора, — никогда не существовало. Лившиц, следуя за Вальтером, повторил: «Если бы Клиффорда не существовало, его следовало бы придумать». И он его придумал.

На протяжении десятилетий Лившиц публиковал свои собственные стихи в Советском Союзе, выдавая их за переводы несуществующего английского поэта Джеймса Клиффорда.

(взял из видео «Армен и Фёдор», «Товарищ Хемингуэй: как в СССР перековали роман «По ком звонит колокол?»)

Вот как надо взламывать систему 🙂

* * *

КВАДРАТЫ

Владимир Лифшиц

.

И всё же порядок вещей нелеп.

Люди, плавящие металл,

ткущие ткани, пекущие хлеб, —

кто-то бессовестно вас обокрал.

.

Не только ваш труд, любовь, досуг –

украли пытливость открытых глаз;

набором истин кормя из рук,

уменье мыслить украли у вас.

.

На каждый вопрос вручили ответ.

Всё видя, не видите вы ни зги.

Стали матрицами газет

ваши безропотные мозги.

.

Вручили ответ на каждый вопрос…

Одетых и серенько и пестро,

утром и вечером, как пылесос,

вас засасывает метро.

.

Вот вы идёте густой икрой,

все, как один, на один покрой,

люди, умеющие обувать,

люди, умеющие добывать.

.

А вот идут за рядом ряд –

ать — ать — ать — ать, —

пока ещё только на парад,

люди, умеющие убивать…

.

Но вот однажды, средь мелких дел,

тебе дающих подножный корм,

решил ты вырваться за предел

осточертевших квадратных форм.

.

Ты взбунтовался. Кричишь: — Крадут!.. –

Ты не желаешь себя отдать.

И тут сначала к тебе придут

люди, умеющие убеждать.

.

Будут значительны их слова,

будут возвышены и добры.

Они докажут, как дважды два,

что нельзя выходить из этой игры.

.

И ты раскаешься, бедный брат.

Заблудший брат, ты будешь прощён.

Под песнопения в свой квадрат

ты будешь бережно возвращён.

.

А если упорствовать станешь ты:

— Не дамся!.. Прежнему не бывать!..

Неслышно явятся из темноты

люди, умеющие убивать.

.

Ты будешь, как хину, глотать тоску,

и на квадраты, словно во сне,

будет расчерчен синий лоскут

чёрной решёткой в твоём окне.

Революция в чтении: новая технология для понимания английской литературы | 30 октября 2024 года, 22:46

Усовершенствовал свой конвертер EPUB для чтения сложных английских художественных текстов. В предыдущей версии я засылал в ChatGPT главы, и просил перевести в скобках сложные слова. Меня спросили в комментариях, а как определяются какие слова сложные. В общем, пока дочитал первую четверть книги в таком виде понял, что не все сложные слова ChatGPT считает за сложные. Включая очевидно сложные. И не переводит.

В итоге, я сделал новую версию. Визуально она отличается тем, что переводы теперь идут над словами. Это не разбивает предложения на куски, как это было в случае, когда перевод шел в скобках. Но это не все.

Изменен способ нахождения «сложных слов, требующих перевода». Она теперь оперирует списком из 300000 слов с частотой их использования в английском языке. Первые 3.5% этого отсортированного по частоте использования списка (подобрал эмпирически) теперь считаются несложными и перевода не требуют. Остальные — требуют. Технически у меня для каждого слова еще есть группа сложности 1-30, но к сожалению в Books нельзя выделять цветом.

Дальше слово нужно как-то перевести на русский. Чтобы не использовать для этого LLM, я нашел словарь Мюллера на 55954 слова. Слово, которое нужно перевести, переводится в нормальную форму, и ищется в словаре. Если находится, берется первое определение из словаря. К сожалению, первое не всегда верное, но в большинстве случаев ок. Если в словаре Мюллера не нашлось, система идет в LLM. Тут у меня есть две реализации — использование локальной LLAMA3 и использование OpenAI. Локальная очевидно медленнее и качество перевода хуже, но зато бесплатная. Есть отдельная система, которая контроллирует что перевела LLAMA3 и заставляет ее переделать, если она возвращает что-то непотребное (например, длинное или имеющее спецсимволы).

Кроме этого, для перевода через LLM системе сообщается еще контекст — предложение, в котором находится переводимое слово. Так перевод ближе к тексту. Все равно есть косяки мелкие, но в целом с ними можно жить.

Но даже со всем этим перевод через LLM низкого качества. В идеале, конечно, подключить еще другие словари, чтобы в случае, если не нашлось в Миллере, пробовались еще другие, и если не нашлось и в них, вот тогда уже LLM. У меня уже появился один, буду экспериментировать.

Если система помечает слишком много очевидных слов, я могу подправить один коэфициент, и частотная группа, из которой не переводятся слова, будет больше, и наверняка эти очевидные слова перестанут переводиться. Конечно, всегда есть слова из «редких», которые переводить не надо, потому что их перевод очевиден. Но научить скрипт отличать такие непросто, проще забить, оно нечасто случается.

Далее перевод выводится над словом. Для Books это тоже пляски с бубном, но в итоге заработало на iPad и ноутбуке. На телефоне, к сожалению, нужно чуть иначе делать, в итоге версия книжки для телефона и версия для iPad/компа будут разными. Ну это меня не очень напрягает, какая разница.

Триллионы и ундециллионы: казусы мировых числовых систем | 29 октября 2024 года, 22:55

Российские телеканалы потребовали у Google два ундециллиона (2*10^36) рублей. Но меня улыбнуло другое — вообще-то Google, точнее Googol, обозначает 10^100. То есть, запас есть.

Но также было интересно узнать, что для больших чисел есть две разных системы названий. Они начинают расходиться от billion, который по одной означает 10^9 (что советует миллиарду по другой) а по другой — триллион, что в 1000 раз больше, и этот триллион по этой второй означает квинтиллион по первой и т.д. в итоге этот самый ундециллион по первой соответствует секстиллиону со второй. В общем путаница ужасная.

Сложность ещё в том, что там есть третий вариант, называемый «первая, но не совсем» -это с исключением, что 10^9 всё-таки миллиард, а не биллион.

Причём разные страны исторически живут по разным шкалам. Первая, которая называется короткой, в основном прижилась в англоязычных. 10^9 у них (то есть, у нас) — billion. А в у арабов в основном миллиард ( مليار ), но вот например в Саудовской Аравии биллион (بليون).

Россия тоже в числе использующих короткую шкалу. Поэтому от гугла требуют уедециллион, а не секстиллион.

Вторую шкалу, которая длинная, разделяют датчане, французы, немцы, португальцы, испанцы. У них 10^9 это миллиард с поправками на произношение и запись в грамматике языка.

Ну и есть туча исключений, включая страны, не попадающие ни в один «лагерь» их этих двух.

Но что еще более интересно, это то, что до 1974 Британия называла биллион миллиардом, а триллион был известен как биллион и квадрилион как биллиард. В 1974 они официально перешли на короткую систему.

Сложнее всего в Канаде. Там и так проблема с путаницей с юнитами, так и с этими системами больших чисел тоже путаница. Официально она принимает короткую систему, как и США, но из-за двуязычности (английский и французский) и сильного культурного влияния Франции иногда встречается и длинная система. В Южной Африке такая же ситуация.

Правда, единственная статья про это на французском (и там sextillion!) — от RT. Больше никого такая фигня в мире не интересует 🙂

Закат ABBYY и кризис в компьютерной лингвистике | 27 октября 2024 года, 12:43

Очень интересный материал про закат ABBYY и кризис в компьютерной лингвистике, как AI отбирает бизнес у ABBYY и что такое Compreno и почему он не взлетел, как ожидали

Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP

Чтение «Лолиты» с ChatGPT: из заковыристого к занимательному | 27 октября 2024 года, 03:40

После прочтения первых нескольких десятков страниц я уж подумывал забросить «Лолиту», потому что ну уж очень часто приходится в словарь смотреть. Ну дополнительно еще изучать всякие особенности строения предложений и отсылки, но это как раз интересно, хотя и притормаживает чтение.

А потом подумал, а что, я не программист что-ли. И мы на пару с ChatGPT сделали автоматическое аннотирование. Для начала надо сказать, что «Лолита» имеет версию с аннотациями на 200 страниц и подробным введением на 100 страниц. Эти аннотации уже покрывают много тем, но они редко разъясняют редкие слова, предполагая, что читатель достаточно образованный, чтобы понять, что conspicuousness (/kənˈspɪkjuːəsnɪs/) — это заметность, thingamabob — штуковина, а callipygian — это тоже, что callipygous и переводится как «имеющий совершенную форму ягодиц». Например, в самом начале книжки «My father was a gentle, easy-going person, a salad of racial genes: a Swiss citizen, of mixed French and Austrian descent with a dash of the Danube” — я думал, что это за Danube такой, а это оказывается Дунай. Который в моей версии теперь сереньким в скобочках после Danube.

В итоге, в дополнение к существующим аннотациям, мой скрипт еще добавляет переводы на русский в скобках италиком, а также добавляет какие-то мнения по отдельным фразам и отсылкам — для этого после предложения добавляется нечто в скобках, на что нужно кликнуть.

Вот с таким читать уже сильно проще. Ну и интереснее