Революция в чтении: новая технология для понимания английской литературы | 30 октября 2024 года, 22:46

Усовершенствовал свой конвертер EPUB для чтения сложных английских художественных текстов. В предыдущей версии я засылал в ChatGPT главы, и просил перевести в скобках сложные слова. Меня спросили в комментариях, а как определяются какие слова сложные. В общем, пока дочитал первую четверть книги в таком виде понял, что не все сложные слова ChatGPT считает за сложные. Включая очевидно сложные. И не переводит.

В итоге, я сделал новую версию. Визуально она отличается тем, что переводы теперь идут над словами. Это не разбивает предложения на куски, как это было в случае, когда перевод шел в скобках. Но это не все.

Изменен способ нахождения «сложных слов, требующих перевода». Она теперь оперирует списком из 300000 слов с частотой их использования в английском языке. Первые 3.5% этого отсортированного по частоте использования списка (подобрал эмпирически) теперь считаются несложными и перевода не требуют. Остальные — требуют. Технически у меня для каждого слова еще есть группа сложности 1-30, но к сожалению в Books нельзя выделять цветом.

Дальше слово нужно как-то перевести на русский. Чтобы не использовать для этого LLM, я нашел словарь Мюллера на 55954 слова. Слово, которое нужно перевести, переводится в нормальную форму, и ищется в словаре. Если находится, берется первое определение из словаря. К сожалению, первое не всегда верное, но в большинстве случаев ок. Если в словаре Мюллера не нашлось, система идет в LLM. Тут у меня есть две реализации — использование локальной LLAMA3 и использование OpenAI. Локальная очевидно медленнее и качество перевода хуже, но зато бесплатная. Есть отдельная система, которая контроллирует что перевела LLAMA3 и заставляет ее переделать, если она возвращает что-то непотребное (например, длинное или имеющее спецсимволы).

Кроме этого, для перевода через LLM системе сообщается еще контекст — предложение, в котором находится переводимое слово. Так перевод ближе к тексту. Все равно есть косяки мелкие, но в целом с ними можно жить.

Но даже со всем этим перевод через LLM низкого качества. В идеале, конечно, подключить еще другие словари, чтобы в случае, если не нашлось в Миллере, пробовались еще другие, и если не нашлось и в них, вот тогда уже LLM. У меня уже появился один, буду экспериментировать.

Если система помечает слишком много очевидных слов, я могу подправить один коэфициент, и частотная группа, из которой не переводятся слова, будет больше, и наверняка эти очевидные слова перестанут переводиться. Конечно, всегда есть слова из «редких», которые переводить не надо, потому что их перевод очевиден. Но научить скрипт отличать такие непросто, проще забить, оно нечасто случается.

Далее перевод выводится над словом. Для Books это тоже пляски с бубном, но в итоге заработало на iPad и ноутбуке. На телефоне, к сожалению, нужно чуть иначе делать, в итоге версия книжки для телефона и версия для iPad/компа будут разными. Ну это меня не очень напрягает, какая разница.

Как голосовать в Вирджинии: инструкция для избирателей | 30 октября 2024 года, 20:35

Проголосовал!

Интересно, что для голосования нужны только ноги и немножко документы. При условии, конечно, предварительной регистрации в системе (для этого нужен интернет).

Последний и главный день голосования будет 5 ноября, а с 20 сентября допускается так называемое раннее голосование.

На месте нужно представиться, получить бланк, заполнить и отсканировать. В зале, где рисуешь на бланке кружочки, не положено разговаривать друг с другом, и если очень хочется, то нужно заранее заполнить формочку, придуманную для ассистирования — если например очень старенькой бабушке нужен будет помощник в виде внучки.

«Представиться» по умолчанию это показать водительские права или любое другое удостоверение личности. К удостоверениям личности относятся даже служебные удостоверения, студенческий билет, или даже счет за коммунальные услуги, выписка из банка, государственный чек или зарплатная ведомость, выданные в течение последних 12 месяцев и содержащие имя и адрес избирателя. В целом, в списке есть даже «любой другой действующий государственный документ, содержащий ваше имя и адрес», но даже если нет всего этого, тоже не беда — нужно заполнить «Заявление о подтверждении личности», в котором написать, что вы являетесь зарегистрированным избирателем, за которого себя выдаете, и проголосовать.

При всем при этом есть уголовная ответственность за выдачу себя за другого на этом этапе. Например, в нашем штате это тяжкое преступление, тюрьма до 10 лет и штраф до $2500.

На самом бланке просят проголосовать за будущего президента (причем можно вписать фамилию любого человека, и он попадет в статистику), а также выбрать сенатора от Виржинии и представителя в палате преставителей по нашему округу. Также просят выбрать мэра города — причем там всего одна фамилия, но можно вписать кого угодно еще.

На другой стороне — опрос. Начинается он с вопроса нужна ли поправка в Конституцию Вирджинии (да, в США каждый штат имеет свою Конституцию) — давать или нет налоговую льготу для вдов военнослужащих, погибших при исполнении, а не только в бою. В настоящее время жены солдат, погибших в бою, имеют право на освобождение от налога на недвижимость. Однако те, чьи близкие погибли при исполнении служебных обязанностей (например, в результате аварии или несчастного случая, не связанного с боем), лишены этой льготы.

Остальное про деньги. Округ спрашивает разрешение привлечь до $10 млн для улучшения школьных объектов, примерно столько же на замену пожарной станции и приобретения оборудования, до $53,78 млн для строительства и улучшения спортивных и развлекательных комплексов, парков (перечислено детально что), а также до $151,16 млн для расширения и улучшения дорожной инфраструктуры, включая расширение дорог и создание новых развязок.

На выходе сканируешь бюллетень и все, свободен. Никаких столиков с бесплатными печеньками и музыкой у входа. Надо будет еще в день голосования туда дойти, посмотреть, какие будут отличия.

Александр Савин: Искусство незаметных миров | 30 октября 2024 года, 14:20

Савин Александр (1949) — советский и российский художник, практически неизвестный широкой публике. Многие его картины противопоставляют простор и широту мира и что-то малозначительное, в нем происходящее. По мне, очень необычные и интересные работы. Последние его работы на сайте датированы 2014. Дедушке 75 лет, не знаю, пишет он еще или уже нет.

Подобные посты группируются по тегу #artrauflikes, а на beinginamerica.com в разделе «Art Rauf Likes» есть все 124 (в отличие от Facebook, который забывает (забивает) на почти половину).

Триллионы и ундециллионы: казусы мировых числовых систем | 29 октября 2024 года, 22:55

Российские телеканалы потребовали у Google два ундециллиона (2*10^36) рублей. Но меня улыбнуло другое — вообще-то Google, точнее Googol, обозначает 10^100. То есть, запас есть.

Но также было интересно узнать, что для больших чисел есть две разных системы названий. Они начинают расходиться от billion, который по одной означает 10^9 (что советует миллиарду по другой) а по другой — триллион, что в 1000 раз больше, и этот триллион по этой второй означает квинтиллион по первой и т.д. в итоге этот самый ундециллион по первой соответствует секстиллиону со второй. В общем путаница ужасная.

Сложность ещё в том, что там есть третий вариант, называемый «первая, но не совсем» -это с исключением, что 10^9 всё-таки миллиард, а не биллион.

Причём разные страны исторически живут по разным шкалам. Первая, которая называется короткой, в основном прижилась в англоязычных. 10^9 у них (то есть, у нас) — billion. А в у арабов в основном миллиард ( مليار ), но вот например в Саудовской Аравии биллион (بليون).

Россия тоже в числе использующих короткую шкалу. Поэтому от гугла требуют уедециллион, а не секстиллион.

Вторую шкалу, которая длинная, разделяют датчане, французы, немцы, португальцы, испанцы. У них 10^9 это миллиард с поправками на произношение и запись в грамматике языка.

Ну и есть туча исключений, включая страны, не попадающие ни в один «лагерь» их этих двух.

Но что еще более интересно, это то, что до 1974 Британия называла биллион миллиардом, а триллион был известен как биллион и квадрилион как биллиард. В 1974 они официально перешли на короткую систему.

Сложнее всего в Канаде. Там и так проблема с путаницей с юнитами, так и с этими системами больших чисел тоже путаница. Официально она принимает короткую систему, как и США, но из-за двуязычности (английский и французский) и сильного культурного влияния Франции иногда встречается и длинная система. В Южной Африке такая же ситуация.

Правда, единственная статья про это на французском (и там sextillion!) — от RT. Больше никого такая фигня в мире не интересует 🙂

Наука на OZON: выбираем самую умную книгу | 29 октября 2024 года, 20:05

Зашел на OZON в раздел «Научная литература» заказать что-нибудь себе сюда. Внимание конкурс. Какая из приведенных книг самая научная?

Одна кнопка, тысяча символов: путешествие через историю печатных машинок | 29 октября 2024 года, 01:17

Сейчас узнал, что IBM производила механические печатающие машинки, которые а) имели кнопку Backspace б) у которых головка двигалась по бумаге.

Модель 1984 года называется IBM Correcting Selectric III. У нее интересный способ удаления буквы — она бьет по бумаге специальной клейкой лентой, которая отрывает краску без следа.

Кстати, в 1976 году СССР разработал кейлоггер для американских машинок и каким-то образом установил их в машинки посольства США. Пишут, что много секретов таким образом было выведано.

Еще интересно было, а как справлялись с этим в Японии и Китае. У тех печатных машинок не тысяча кнопок. У них, не поверите, одна кнопка. Но. Тысяча квадратиков, на которых наводили «прицел». Ну то есть, разные бывают, бывают и как обычные, но вот есть модели, где такое (прикладываю несколько фоток). Есть даже модель с цилиндром, на котором 2400 японских иероглифов, и нужно поворачивать и сдвигать цилиндр для каждого символа. Видос оставлю в комментариях. Очень красивое инженерное решение.

А еще в Китае в 1947 изобрели и выпустили машинку Mingkwai, которая теоретически давала возможность печатать 90,000 символов со скоростью 50 символов в минуту. Прикиньте, какое было инженерное решение для того времени. Нажимаешь на клавишу — ничего не происходит, что-то щелкает внутри машинки. Нажимаешь второй раз — тоже что-то щелкает, но в этот раз уже на экранчике выводятся варианты, которые соответствуют критериям, заданным двумя теми нажатиями. И третье нажатие по сути выбирает один из этих символов. При этом экранчик.. какой экранчик в 1947.. Это было окошко, через которое показывались символы из большого набора. Один символ — три нажатия.

Еще только сегодня до меня дошло, что кнопка Shift называется Shift, потому что на печатных машинках она физически сдвигала корзину. Ну заодно напишу про кнопку Return или CR — carriage return (которая Enter), которая так называется, потому что она физически возвращала каретку на начало строки. А подчеркивание (_, underscore) было придумано, чтобы подчеркивать слова, напечатанные ранее.

Еще интересно, что раскладка QWERTY была продиктована необходимостью разнести часто идущие друг за другом символы подальше, чтобы при быстром наборе рычажки в друг друга не врезались.

Мое знакомство с печатными машинками в детстве, кажется, началось с электрических уже, хотя, конечно, на механических я тоже печатал. Забавно, но знакомство Фридриха Ницше с печатающей машинкой тоже началось с электрических. Пишут, что у него была первая shrivekugel.

А в Нью-Йорке я как-то видел магазин (единственный, насколько я знаю), который до сих пор торгует печатными машинками.

Еще интересно, что когда Эдвин Хантер Макфарланд разрабатывал печатающую машину для Тайланда, у него не хватило клавиш для двух согласных ( «ฎ» до ча́да и «ฅ» хо хип), и в итоге они вообще исчезли из языка.

Еще интересно, что рекорд по скорости набора в 216 слов в минуту был поставлен 78 лет назад Stella Pajunas-Garnand на печатающей машинке. В 2005 Barbara Blackburn приблизилась (212 wpm), а в 2019 Anthony “Chark” Ermolin побил рекорд (233 wpm). Кстати, такие чемпионаты устраивает компания daskeyboard, у меня от нее две клавиатуры дома и я подумываю купить третью (кстати, никто не покупал недавно?)

В комментариях ссылки на разное из ^^^^

Diane Leonard | 28 октября 2024 года, 16:31

Сегодня — американская художница-импрессионист Diane Leonard (р. 1949). Мамы, дети, море, зонтики, солнце. Интересно, что у очень многих художников вообще не гуглится путь к их стилю. Они как будто всю жизнь писали эти зонтики, море и детей с мамами. Но так же не бывает. Потому что маркетинг — хорошо, когда у художника узнаваемый стиль. Когда тебе 75 лет, с тобой сотрудничают галереи, есть хороший сайт и инстаграмм, есть персональные выставки по всему миру, есть продажи на аукционах, то из всех картин в сеть попадает то, что работает на благо продаж на этих аукционах, а не то, что этому мешает. Поэтому картин часто мало, они часто однотипные. И всегда думаешь, а что мы не видим?

Подобные посты группируются по тегу #artrauflikes, а на beinginamerica.com в разделе «Art Rauf Likes» есть все 123 (в отличие от Facebook, который забывает (забивает) на почти половину).

Alec Watson | 27 октября 2024 года, 20:49

Если вы получаете удовольствие от гениальных механизмов, то это видео для вас. Меня вообще подобные штуки сводят с ума, поэтому Alec Watson у меня один из must see. Я подписан еще и на русскоязычные переводы, и вот сегодня вылезло, напомнило. Оригинальному видео лет пять уже. Тут выкладываю русский перевод, но вообще конечно смотреть надо @technologyconnections

Закат ABBYY и кризис в компьютерной лингвистике | 27 октября 2024 года, 12:43

Очень интересный материал про закат ABBYY и кризис в компьютерной лингвистике, как AI отбирает бизнес у ABBYY и что такое Compreno и почему он не взлетел, как ожидали

Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP

Чтение «Лолиты» с ChatGPT: из заковыристого к занимательному | 27 октября 2024 года, 03:40

После прочтения первых нескольких десятков страниц я уж подумывал забросить «Лолиту», потому что ну уж очень часто приходится в словарь смотреть. Ну дополнительно еще изучать всякие особенности строения предложений и отсылки, но это как раз интересно, хотя и притормаживает чтение.

А потом подумал, а что, я не программист что-ли. И мы на пару с ChatGPT сделали автоматическое аннотирование. Для начала надо сказать, что «Лолита» имеет версию с аннотациями на 200 страниц и подробным введением на 100 страниц. Эти аннотации уже покрывают много тем, но они редко разъясняют редкие слова, предполагая, что читатель достаточно образованный, чтобы понять, что conspicuousness (/kənˈspɪkjuːəsnɪs/) — это заметность, thingamabob — штуковина, а callipygian — это тоже, что callipygous и переводится как «имеющий совершенную форму ягодиц». Например, в самом начале книжки «My father was a gentle, easy-going person, a salad of racial genes: a Swiss citizen, of mixed French and Austrian descent with a dash of the Danube” — я думал, что это за Danube такой, а это оказывается Дунай. Который в моей версии теперь сереньким в скобочках после Danube.

В итоге, в дополнение к существующим аннотациям, мой скрипт еще добавляет переводы на русский в скобках италиком, а также добавляет какие-то мнения по отдельным фразам и отсылкам — для этого после предложения добавляется нечто в скобках, на что нужно кликнуть.

Вот с таким читать уже сильно проще. Ну и интереснее