Открытие неизвестного вальса Шопена | 01 ноября 2024 года, 14:52

В общем, тут Шопен выпустил новый сингл.

В этом году в нью-йорской библиотеке и музея Моргана в хранилище нашли рукопись неизвестного ранее вальса, короткого, и, вероятно, не доведенного до конца. После тщательного анализа экспертиза пришла к решению, что это Шопен, его почерк, особенности, датировка и т.д. У Шопена всего около 250 произведений и до 28 вальсов, и только девять были реализованы, а остальные были утеряны или уничтожены, что делает недавно обнаруженное произведение Шопена невероятно редким.

Неподписанный вальс никогда официально не был признан Шопеном, оставаясь неопубликованным и вне поля зрения общественности. Мало что известно о его происхождении и возможном приобретении А. Шеррилл Уитон-младшим, директором Нью-Йоркской школы дизайна интерьера. Оттуда близкий друг Артур Сац купил произведение у жены Уитона Джин и пожертвовал его Моргану в 2019 году. Ну и вот дошли до него руки экспертизы.

Lang Lang записал и выложил исполнение.

Революция в чтении: новая технология для понимания английской литературы | 30 октября 2024 года, 22:46

Усовершенствовал свой конвертер EPUB для чтения сложных английских художественных текстов. В предыдущей версии я засылал в ChatGPT главы, и просил перевести в скобках сложные слова. Меня спросили в комментариях, а как определяются какие слова сложные. В общем, пока дочитал первую четверть книги в таком виде понял, что не все сложные слова ChatGPT считает за сложные. Включая очевидно сложные. И не переводит.

В итоге, я сделал новую версию. Визуально она отличается тем, что переводы теперь идут над словами. Это не разбивает предложения на куски, как это было в случае, когда перевод шел в скобках. Но это не все.

Изменен способ нахождения «сложных слов, требующих перевода». Она теперь оперирует списком из 300000 слов с частотой их использования в английском языке. Первые 3.5% этого отсортированного по частоте использования списка (подобрал эмпирически) теперь считаются несложными и перевода не требуют. Остальные — требуют. Технически у меня для каждого слова еще есть группа сложности 1-30, но к сожалению в Books нельзя выделять цветом.

Дальше слово нужно как-то перевести на русский. Чтобы не использовать для этого LLM, я нашел словарь Мюллера на 55954 слова. Слово, которое нужно перевести, переводится в нормальную форму, и ищется в словаре. Если находится, берется первое определение из словаря. К сожалению, первое не всегда верное, но в большинстве случаев ок. Если в словаре Мюллера не нашлось, система идет в LLM. Тут у меня есть две реализации — использование локальной LLAMA3 и использование OpenAI. Локальная очевидно медленнее и качество перевода хуже, но зато бесплатная. Есть отдельная система, которая контроллирует что перевела LLAMA3 и заставляет ее переделать, если она возвращает что-то непотребное (например, длинное или имеющее спецсимволы).

Кроме этого, для перевода через LLM системе сообщается еще контекст — предложение, в котором находится переводимое слово. Так перевод ближе к тексту. Все равно есть косяки мелкие, но в целом с ними можно жить.

Но даже со всем этим перевод через LLM низкого качества. В идеале, конечно, подключить еще другие словари, чтобы в случае, если не нашлось в Миллере, пробовались еще другие, и если не нашлось и в них, вот тогда уже LLM. У меня уже появился один, буду экспериментировать.

Если система помечает слишком много очевидных слов, я могу подправить один коэфициент, и частотная группа, из которой не переводятся слова, будет больше, и наверняка эти очевидные слова перестанут переводиться. Конечно, всегда есть слова из «редких», которые переводить не надо, потому что их перевод очевиден. Но научить скрипт отличать такие непросто, проще забить, оно нечасто случается.

Далее перевод выводится над словом. Для Books это тоже пляски с бубном, но в итоге заработало на iPad и ноутбуке. На телефоне, к сожалению, нужно чуть иначе делать, в итоге версия книжки для телефона и версия для iPad/компа будут разными. Ну это меня не очень напрягает, какая разница.

Триллионы и ундециллионы: казусы мировых числовых систем | 29 октября 2024 года, 22:55

Российские телеканалы потребовали у Google два ундециллиона (2*10^36) рублей. Но меня улыбнуло другое — вообще-то Google, точнее Googol, обозначает 10^100. То есть, запас есть.

Но также было интересно узнать, что для больших чисел есть две разных системы названий. Они начинают расходиться от billion, который по одной означает 10^9 (что советует миллиарду по другой) а по другой — триллион, что в 1000 раз больше, и этот триллион по этой второй означает квинтиллион по первой и т.д. в итоге этот самый ундециллион по первой соответствует секстиллиону со второй. В общем путаница ужасная.

Сложность ещё в том, что там есть третий вариант, называемый «первая, но не совсем» -это с исключением, что 10^9 всё-таки миллиард, а не биллион.

Причём разные страны исторически живут по разным шкалам. Первая, которая называется короткой, в основном прижилась в англоязычных. 10^9 у них (то есть, у нас) — billion. А в у арабов в основном миллиард ( مليار ), но вот например в Саудовской Аравии биллион (بليون).

Россия тоже в числе использующих короткую шкалу. Поэтому от гугла требуют уедециллион, а не секстиллион.

Вторую шкалу, которая длинная, разделяют датчане, французы, немцы, португальцы, испанцы. У них 10^9 это миллиард с поправками на произношение и запись в грамматике языка.

Ну и есть туча исключений, включая страны, не попадающие ни в один «лагерь» их этих двух.

Но что еще более интересно, это то, что до 1974 Британия называла биллион миллиардом, а триллион был известен как биллион и квадрилион как биллиард. В 1974 они официально перешли на короткую систему.

Сложнее всего в Канаде. Там и так проблема с путаницей с юнитами, так и с этими системами больших чисел тоже путаница. Официально она принимает короткую систему, как и США, но из-за двуязычности (английский и французский) и сильного культурного влияния Франции иногда встречается и длинная система. В Южной Африке такая же ситуация.

Правда, единственная статья про это на французском (и там sextillion!) — от RT. Больше никого такая фигня в мире не интересует 🙂

Наука на OZON: выбираем самую умную книгу | 29 октября 2024 года, 20:05

Зашел на OZON в раздел «Научная литература» заказать что-нибудь себе сюда. Внимание конкурс. Какая из приведенных книг самая научная?

Alec Watson | 27 октября 2024 года, 20:49

Если вы получаете удовольствие от гениальных механизмов, то это видео для вас. Меня вообще подобные штуки сводят с ума, поэтому Alec Watson у меня один из must see. Я подписан еще и на русскоязычные переводы, и вот сегодня вылезло, напомнило. Оригинальному видео лет пять уже. Тут выкладываю русский перевод, но вообще конечно смотреть надо @technologyconnections

Закат ABBYY и кризис в компьютерной лингвистике | 27 октября 2024 года, 12:43

Очень интересный материал про закат ABBYY и кризис в компьютерной лингвистике, как AI отбирает бизнес у ABBYY и что такое Compreno и почему он не взлетел, как ожидали

Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP

Образование в США после 30: стоит ли игра свеч? | 24 октября 2024 года, 19:42

Вынесу из комментариев в пост мои рассуждения на предмет стоит ли получать полноценное 4-5-летнее высшее образование в американском ВУЗе в условно 30 лет с целью получать больше. Интересно, что думаете вы. Ну и вдруг кому полезно будет.

[UPDATE в комментариях правильно заметили, что можно поступить сразу в магистратуру, и тогда диплом будет за 1-2 года. Инвестиции меньше, делите все цифры на 2-3]

Я и сам бы с удовольствием пошел учиться. Вопрос в ROI.

Главными причинами получения американского образования я считаю две: сеть связей и вступление в клуб «выпускники вузов».

Вступление в клуб нужно для того, чтобы работодатель плюс-минус понимал, стоит ли тратить время на интервью. Если человек окончил 4 года американского вуза in person, то он как минимум складно говорит по-английски, как минимум привык работать с дедлайнами и решать проблемы самостоятельно, а может быть еще и отличать важное и срочное от неважного и несрочного, и возможно умеет ладить с людьми и говорить на одном языке. Без образования в США все это может оказаться сюрпризно иным на интервью, и что, отправлять после двух минут разговора?

Сеть связей — типичный студент за 4 года общается с сотнями человек, которые потенциально его помнят. Кроме этого, быть с кем-то из одного вуза это очень круто. Мотированный студент умудряется засветиться у пары тысяч человек, ну в разной степени. Они конечно хором его забудут, но если им напомнить, то могут сделать вид, что помнят.

Все, больше я никаких причин не вижу. Знания можно получить и так.

Вступление в клуб нужно для того, чтобы тебя в принципе пригласили на собеседование как одного из сотни подавших резюме. Чтобы его пройти, нужны другие скиллы, и конечно, часть из них получают в вузе, хотя, конечно, можно освоить и без вуза. Например, на производстве.

Теперь про ROI.

Я считаю, что человек после 30 с опытом 10-15 лет после получения американского образования не вырастет зарплата в достаточной мере, чтобы окупилось образование. Зато из-за необходимости приостановить темпы развития на работе он может точно потерять в «keep up with the market». Плюс потом работодатель может еще и принять решение взять более молодого и живенького. Конечно, никто не признается, что это был фактор.

(Другой вопрос, если работы нет вообще и новая что-то плохо находится. Тогда в позднем втором образовании можно поискать логику. И также другой вопрос, если хочется быть умнее, и есть возможность поплевать на карьеру и деньги, будет день, будет пища, разберемся. Это тоже норм причина)

Вот рассуждение по ROI:

Год обучения в нормальном вузе, который имеет смысл добавлять поверх относительно нормального «с родины» (не в community college) стоит около 25000 долларов в минимум. Ну прибавим еще 5000 за проживание и всякие расходы, непосредственно связанные с обучением. Бакалавр — это 120000 долл. Поскольку учиться и работать полноценно нельзя на кампусе, скорее всего, все это время придется как минимум с половиной-3/4 зарплаты попрощаться, а остальную половину какие-то подработки точно обеспечат. Положим, зарплата сейчас у приезжего недавно с опытом 20+ лет в США в районе 150К, хотя я это очень занизил, плюс это очень зависит от места, ну для простоты расчетов пусть так. Ну положим это еще минус 100К в год. Итого обучение обойдется почти в 600,000 долларов за четыре года.

Мы шли от того, что у человека была зарплата 150К. Он или она отдала 4 года жизни и 600 тысяч долларов, чтобы повысить ее на сколько? Предположим, это программист 30 лет. Взяли ли его в ту же компанию на ту же позицию в то же время на на 100К более высокую зарплату только потому, что у него есть 4 года бакалавра по сравнению с собой же без 4 лет? я лично очень сомневаюсь. Взяли ли его бы на другую работу, где без образования бакалавра вообще бы не взяли? Вероятно взяли бы. Платили бы там на 100К больше, чем на той работе, которую он уже нашел? Вопрос большой. Ну предположим, что платили. Тогда у человека бы ушло еще шесть лет на то, чтобы вернуть потраченные на учебу деньги за счет этой более высокой зарплаты. В итоге, через десять лет после принятия решения «пойду учиться, чтобы заработать больше» он выйдет в ноль и начнет получать в плюс. Учитывая, что за время обучения человек мог потенциально растерять рынок, то может уйдет не 10, а больше лет. А тут дальше см мой комментарий про возраст.

При этом эти рассуждения не работают для всех рынков. Есть лицензионные, и там нужно иметь профильное образование. Если его нет, то вообще никак, надо идти учиться. Условно, если у тебя образование врача из России, то в США с ним не возмут даже постоять рядом с врачом. Нужно получать образование, и хорошо, если ВУЗ примет во внимание уже имеющиеся знания (какие-то принимает). Таких профессий много. Я пишу главным образом про айти же, потому что больше ничего не знаю.

Советское наследие в медицине: мифы и реальность аппарата «Солнышко» | 20 октября 2024 года, 20:20

Сейчас на глаза попался аппарат «Солнышко», который до сих пор используется и продается в России. Он часто фигурирует в мемах про первый детский кальян. Какое-то время назад я читал про советскую физиотерапию, по существу отличающуюся от западной тем, что там происходило тестирование всяких сумасшедших идей на людях без процесса, обычного для нормальных медицинских приборов.

Короче, что это за «Солнышко» такое. Гуглить по «ОУФну (УГН-1)». Внутри стоит лампа ДРТ 240 – дуговая ртутная трубчатая разрядная лампа высокого давления, которая используется в стерилизаторах. 240 из названия — это 240 нм, относится к жесткому УФ-излучению (100-280 нм). Аппарат направляет UV-C излучение на слизистую в рот. Слизистая (кроме глаз), как известно, от УФ-лучей вообще не защищена (в отличие от кож и глаз), а тут еще и жесткое УФ-излучение (UV-C), которое без озоновых дыр до поверхности Земли даже не добирается. В общем, «лечение» достигается путем сжигания слизистой вместе с бактериями и вирусами. Облучение стерилизатором просто убивает клетки и как и любое UV-C доказанно способствует развитию рака.

Как мы все это пережили в детстве 🙂 Сейчас погуглил, оказывается в арсенале детских санаториев были еще и УВЧ-терапия (электромагнитные поля ультравысокой частоты), ВЛОК (внутрисосудистое лазерное облучение крови), электрофорез (это тип введение лекарственного вещества неинвазивным способом — без иглы! — прямо в нужную точку, туда, где болит, но это вообще не работает, но хотя бы и не вредит).

Жесть вообще, и если погуглить облучатель Солнышко, например, он есть в сотнях мест.

Армен Захарян | 19 октября 2024 года, 19:29

Не могу остановиться смотреть ролики Армена Захаряна по литературе «Армен и Федор». Благодаря очень «хорошей» учительнице литературы в школе, я перестал ненавидеть и стал читать классику только через лет 20 после окончания школы. И то, пока научпоп выигрывает битву за место на полке. За такого учителя, как Армен, сегодняшний я может быть ещё и доплачивал бы.

P.S. У меня мама после просмотра интервью вчера взяла в библиотеке Улисс Джойса и ГиП Рабле. Посмотрим-посмотрим как оно у нее пойдёт;)

Инновации и Их Неожиданные Последствия: От Прядильной Машины до AI | 19 октября 2024 года, 02:49

К вопросу про “AI отберет у людей работу”. Читаю в книжке про интересный пример, когда изобретение машины, способной сильно облегчить людям работу, в итоге привело к ухудшению условий труда и жизни рабочих (ну и заодно британскй оккупации Египта) . Речь идет о машине Уитни, упрощающей обработку хлопка.

До изобретения ткацкого станка ткань была на вес золота. Вот буквально, грамм шелка стоил почти столько же, сколько грамм золота. Рассказы о преступности в XVIII и XIX веках почти всегда посвящены тому, как преступников сажали в тюрьму или перевозили в Австралию за кражу носового платка, пачки кружев или еще какой-нибудь кажущейся мелочи, но на самом деле это часто были предметы огромной ценности. Пара шелковых чулок могла стоить 5 фунтов, а пачка кружев могла продаваться за 20 фунтов — достаточно, чтобы прожить на них пару лет, и очень серьезная потеря для любого владельца магазина. Шелковый плащ стоил 50 фунтов стерлингов, что было не по карману никому, кроме высшей знати.

Джон Кэй, молодой человек из Ланкашира, изобрел механический (самолётный) челнок – одно из первых революционных изобретений, необходимых для развития текстильной промышленности. Мобильный челнок Кэя удвоил скорость выполнения ткацких работ. Прядильщики, которые и до этого не успевали за ткачами, стали отставать еще сильнее, и проблемы начали возникать по всей цепочке поставок, создавая огромные экономические трудности для всех участников процесса.

В 1764 году неграмотный ткач из Ланкашира по имени Джеймс Харгривс изобрел удивительно простое устройство, известное как «прядильная машина Дженни», которая за счет использования нескольких веретен выполняла работу десяти прядильщиков.

До появления этого изобретения домашние мастера вручную пряли в Англии 500 тысяч фунтов хлопка ежегодно. К 1785 году, благодаря машине Харгривса и ее улучшенным версиям, это число подскочило до 16 миллионов фунтов.

Это в Англии. В США была другая проблема. На Американском Юге единственный сорт, который хорошо рос, был коротковолокнистый хлопок. Но его невозможно было собирать с прибылью, так как каждая коробочка содержала липкие семена — три фунта семян на каждый фунт волокна, и их приходилось выщипывать вручную. Это было настолько трудоемко, что даже с использованием рабского труда не окупалось. Вручную один рабочий мог очистить лишь около 1 фунта (0,45 кг) хлопка в день. Проблему решил Эли Уитни, изобретя простой вращающийся барабан, котрый использовал гвозди для захвата волокна, оставляя семена «позади». Назвал свою машину «джин» (от эн-джин). Машина Уитни позволяла одному человеку очистить до 50 фунтов (около 22,7 кг) хлопка в день. То есть, в 50 раз больше. Фактически, она заменяла 50 человек на одного.

На этот момент рабство было в шести штатах США; к моменту гражданской войны уже было в 15.

Почему? Оказалось, что вместо того чтобы снизить потребность в рабочей силе, машина Уитни увеличила её: поскольку очистка больше не была узким местом производства, потребовалось больше рабочих для посадки, сбора и обработки увеличивающегося урожая. США стали главным мировым поставщиком хлопка, что сделало текстильную промышленность Европы (особенно Великобритании) зависимой от американского сырья. Это привело к росту рабовладельческой системы в южных штатах, а в Англии увеличило долю детского труда на производстве (потому что платить не надо, только корми, и дети лучше справлялись).

Впоследствии, когда гражданская война в США завершилась, цены на хлопок упали, что привело Египет (где выращивали качественный длинноволокнистый хлопок и продавали в Англию) к экономическому кризису и росту внешних долгов. В конечном итоге это стало одной из причин британской оккупации Египта в 1882 году.

Возвращаясь к теме с AI. Рынок труда адаптируется, но иногда медленно и с потерями. В перспективе появятся новые рабочие места, но переходный период может сопровождаться массовой безработицей и социальными потрясениями.

Правда, никакого искусственного интеллекта еще нет. AI станет настоящим AI, когда он будет понимать и использовать знания об устройстве мира, а не проекции этих знаний. Вот взять генерацию изображений — она использует “проекции” — базу аннотированных фото- и видеоматериалов. Она не использует знания об анатомии и устройстве мира. То же самое и в GenAI — там тоже везде проекции, а не чистое знание. Судя по всему, текущие прорывы в GenAI не подходят для хранения, накопления и использования “чистых знаний”.

А еще нам нужна не просто система, которая может правильно отвечать на наши тривиальные вопросы. Нам нужна система, которая способна задавать правильные нетривиальные вопросы. Большие языковые модели (LLM) по своей природе не способны на это.

Но тем не менее, история с изобретениями Кея, Харгривса, Уитни наводит на параллели.