Денис Мацуев | 21 марта 2025 года, 22:35

Интересную мысль недавно услышал про то, почему на фортепианной сцене так много китайцев, и почему с ними часто свзывается больше потрясающая, виртуозная техника, но часто слабая эмоциональность. Мысль была в том, что китайская речь не способствует эмоциональному интонированию — это отражается на музыкальной фразировке, художественной выразительности. Китайский тональный язык, в котором высота гласных в четырех позициях служит различным смыслам слов, не имеет того, что есть в традиции европейских языков — выражения интонацией в речи как эмоций человека. А естественным для китайцев является выражение эмоции — жестами, которые в свою очередь прекрасно ложатся на сложную картину национального танца, китайского театра. Но не на музыку. Кроме этого, для китайца копирование того, что делают лучшие в мире, значит гораздо больше, чем попытка сделать что-то свое, индивидуальное. Собственно, мы это и не только в музыке видим.

Денис Мацуев на вопросы корреспондента, как в Китае практически на пустом месте удалось создать настоящую музыкальную империю ответил: «Потому что они подают свою культуру как национальный продукт. Сегодня, если в семье рождается мальчик, он чуть ли не автоматически попадает в музыкальную школу».

Комментарий по слабому интонированию — слабому по сравнению с очень сильной техникой — относится к средней массе, но не к топовым пианистам, конечно. Но этих топовых среди китайцев больше, чем среди кого-либо еще. Например, из заметных Ланг Ланг (Lang Lang), Ли Юньди (Yundi Li), Ван Юйцзя (Yuja Wang), Ву Муйе (Muye Wu), Чжан Хаочэнь (Haochen Zhang), Лю Цзи (Ji Liu).

Вот подумываю, может стоит писать про пианистов и композиторов, как я иногда пишу про художников. Там прорва интересного, но в фейсбуке так себе заходят музыкальные видео.

(На приложенном видео человечку 2.5 года)

Испанский против английского: мои приключения в Латинской Америке | 25 февраля 2025 года, 23:50

Наша половина планеты главным образом испаноязычная. 455 миллионов (это 91% всех испаноговорящих) против 280 млн англоговорящих. То есть, мы со своим английским тут в меньшинстве. Поэтому неудивительно, что во все мои поездки в Мексику и Колумбию, я со своим английским нафиг был никому не нужен. Даже на португальском говорят почти столько же, сколько на английском, но испанский впереди всех.

В общем, я тут мучаюсь без испанского. Меня никто не понимает. Приходится объяснять на пальцах сложные концепции как «принимаете ли вы карты или только наличные» или «как пройти в библиотеку».

Это к тому, что удивляться, почему тут не учат английский нормально, глупо. Наверное, с их точки зрения это мы должны учить испанский, их же больше в два раза, к тому же на испанском говорят 19 стран, а на английском или его подобии только 13 (среди которых Ямайка и Тринидад и Тобаго).

Еще интересно, что вот в Канаде французский государственный язык, а говорят на нем во всех Америках столько же, сколько на языке кечуа.

Но самое забавное, что название города, где я сейчас, Гвадалахара, произошло от арабского وادي الحجارة (Wādī al-Ḥijāra), что означает «Долина камней» или «Река, текущая через камни».

Оджибве: язык и культурное наследие | 22 февраля 2025 года, 20:55

Интересно, что в арт музее Торонто все надписи имеют не только английскую и французскую версию, но и версию на языке Оджибве, англ. Ojibwe или Anishinaabemowin (ᐊᓂᔑᓈᐯᒧᐎᓐ); в США язык называют чиппева. Этнонимы «чиппева» и «оджибве» происходят от одного слова с разным произношением, что значит «сморщенные». Это язык одного из самых крупных индейских народов в Северной Америке, по численности примерно равен кри и уступает чероки и навахо. Но говорит на нем всего около 10 000 человек в США и около 48 000 — в Канаде.

Chipmunk, wigwam, totem — это заимствования из этого языка. А географических названий — так вообще море. Illinois, Mississippi, Otttava, Michigan.

А вы знали, что половина (25) названий американских штатов, названы в честь коренных американцев? Меня это в свое время очень удивило.

Я вставил в картинку еще пример оригинальной, а не адаптивной под английский алфавит письменности. Вот эти кружочки и звездочки, треугольнички. Это слоговая система Эванса. Я не знаю, как это можно запомнить: она состояла всего из девяти символов, каждый из которых можно было записывать в четырех различных ориентациях, чтобы обозначать разные сочетания согласной с гласной. Это позволяло полноценно записывать язык оджибве, однако начальство Эванса не одобрило его изобретение и запретило ему его использовать. Позже он адаптировал свою систему для записи языка кри. Сегодня она по-прежнему встречается среди некоторых сообществ оджибве в Канаде, но её использование ограничено. В языке кри она встречается чаще. В США носители оджибве в основном предпочитают латинскую письменность.

ChatGPT узнает язык, но не способен перевести вообще ничего. Онлайн-переводчиков тоже нет, со онлайн-словарями очень плохо. Интересно, что в языке достаточно слов, чтобы описывать современные концепции.

Я пытался перевести индейские выражения, которые, по замыслу автора, должны означать «Европа» и «дилемма», но ничего похожего не получилось. Затем сравнил, как разные LLM переводят фрагмент об историческом периоде 1910–1930 годов, когда «Европу потрясли война и её последствия». У каждой системы получается своя версия текста: кто-то говорит о войне на Великих озёрах, кто-то о «большой бухте» или духовных практиках, где-то вообще про защиту индийского населения (я вообще про художников текст скормил). В итоге «война» распознается более-менее одинаково (видимо, для войны там пятьдесят слов есть), но общий смысл существенно варьируется.

Стратегия или хаос: разбор теорий Трампа | 20 февраля 2025 года, 10:40

У Андрея в посте интересная мысль. Мол, Трамп и его команда намеренно перегружают информационное поле, создавая хаос и “туман войны”, чтобы ослабить сопротивление и сломать существующий порядок. Я тоже так хотел бы думать. Но, с другой стороны, не находите ли вы, что есть и альтернатива?

Помните «бритву Хэнлона» — «Никогда не приписывайте злому умыслу то, что вполне можно объяснить обычной человеческой глупостью».

Ваш (и мой) мозг старается придать наблюдаемому хаосу хоть какую-то систему и придумать логичное объяснение, исходя из предположения, что «нормальные люди так не делают, тут определённо есть замысел и стратегия».

Но тут вопрос как в той песне Слепакова про Газпром — «а что %&я если нет?”.

Eсть же альтернативный вариант. Он называется: «Обезьяна с гранатой пытается создать на печатной машинке гениальный сонет с важным видом». И помня теорему об умножении вероятностей, она пытается много раз и часто.

Теоретически, если вломиться в дом крупных политиков и начать там переворачивать всё вверх дном, то случайная находка ведра с наркотой или чего-то покрупнее оправдает в глазах общественности весь беспредел — по принципу “победителей не судят”. А по сериалам типа «Во все тяжкие» мы знаем, что делать, если наломал дров: ломать с ещё большим рвением. Может не повезти, вот разворотил уже пятидесятый дом, а ведра все ещё нет. Но скорее всего повезёт, если действовать быстро и масштабно. Правда, может оказаться, что сопутствующий ущерб слишком велик, но популус считать не умеет. Запомнит победы.

Может, нас сложно понять, потому что Элон и Трамп умеют ва-банк , а мы осторожничаем?

Я не знаю, в каком из этих вариантов мы живём, потому что могу себе представить через несколько лет обсуждение в СМИ постфактум как первого (мудрый стратег всех переиграл и построил), так и второго плана (Cock-up before conspiracy). Просто обращаю внимание на «бритву Оккама».

Загадки французского: от истории букв до диалектов | 19 февраля 2025 года, 04:50

Забавно. Оказывается ù во французском языке существует ради одного единственного слова où (где). А еще интересно, что знак ^ над буквой, типа û, по сути является сокращением от S. Например, forêt, hôpital — это по сути forest, hospital, в котором s улетела как в письменной, так и устной речи, в небеса. Кстати, и croûton (от croûte), по сути это от слова crust. Сюда же île/isle, hôtel/hostel, bête/beste(beast), côte/coste(coast). Даже шато — château, это по сути родственное castel/castle. Также и в начале слова é по сути тоже самое. école/school, épice/species. А еще во французском почти нет слов, содержащих букву w (но буква есть!)

Еще интересно, что французский и итальянский имеют лексическую схожесть (lexical similarity) 89% — означает, что 89% слов в этих языках похожие очень друг на друга. Так вот, считается, что если лексическая схожесть больше 85%, то это не языки, а диалекты 🙂

Еще сейчас в тему вспомнил, что в 18 веке, по крайней мере в 1789 году, 50% французов на французском не говорили. Они говорили преимущественно на языках группы «langue d’oïl» и окситанских диалектах. Франции потребуется развитие школ, чтобы распространить французский язык. А еще интересно, что на французском говорят больше людей в Африке, чем во Франции.

Алфавитный ключ к памяти | 11 февраля 2025 года, 02:23

У меня есть один лайфхак для вспоминания забытого слова, который работает довольно надежно в моем случае. Может, будет работать и в вашем.

Заключается он в том, что для того, чтобы вспомнить некоторое слово, я перечисляю буквы алфавита, стараясь вспоминать то самое слово, спрашивая себя «начинается на А? на Б? На В?». И на букве, на которую это слово на самом деле начинается, у меня оно вспоминается целиком.

Например, мне сегодня нужно было вспомнить одну группу из 90-х. Я не помнил ничего. Ни названий песен, ничего, что я мог бы найти погуглив через минуту. Но определенная «картинка» в голове была. Наверное, если бы я еще немного помучался, я бы придумал поисковые запросы, которые вывели бы меня куда надо, но я вытащил эту технику и начал перебирать буквы.

И вот перебирая А, Б, В, … на букве К я вспоминаю — «Кармен»!

Иногда, редко, приходится делать «второй проход». Ну, конечно, не всегда помогает, но с другой стороны, если совсем никакой системы нет, то непонятно, как вообще вспоминать. А так система есть, с нее можно начать, и она довольно часто срабатывает.

А вот для того, чтобы запомнить недлинные числа, чтобы их потом легче вспомнить, я мысленно рисую ломанную линию, обходящую панель кнопочного телефона. Получается визуально загогулина, которую можно заполнить в дополнение к числам. Правда, в отличие от первого подхода, этим я пользуюсь редко, потому что запоминать и потом вспоминать числа особо по жизни не приходится.

Мир неожиданных фактов: от клубники до зебр | 10 февраля 2025 года, 22:11

Век живи — век учись.

Клубника, земляника — это не ягоды, а орехи. Вернее, не сами плоды, а семечки, а мякоть — это цветоложе. Картофель — это двугнездая ягода. Груша — это яблоко. Черешня, слива, абрикос, персик — костянки. Разделяются однокостянка (например, вишня, слива, персик, кокос) и многокостянка (например, малина, ежевика, морошка). Бананы — это ягоды. Ананас — трава. Арбуз — ягода (тыквина). Миндаль — не орех, а сухой плод. Семена яблок, косточки вишни, абрикоса, персика или сливы содержат цианиды (амигдалин в них превращается). Как и в миндале. В шоколаде есть теобромин — пару плиток шоколада для собаки смерть или около того, половинка — точно свалит с ног. Ваниль делают из мексиканской орхидеи-лианы, а вот ванилин, искусственный заменитель ванили, является побочным продуктом целлюлозно-бумажной промышленности.

Такого вида как пантера не существует. Пантерами называют «в народе» черных ягуаров или леопардов. У черных пантер тоже есть пятна, просто они хуже видны. У белых медведей черная кожа и прозрачный мех. А белые они потому же, почему облака белые. У дятлов язык раза в четыре длиннее клюва, поэтому он обвит вокруг черепа и может вытягиваться. Язык европейского зелёного дятла спускается в горло, тянется через заднюю часть шеи, вокруг задней части черепа под кожей, по темени между глазами, заканчивается обычно прямо под глазницей. У некоторых дятлов язык выходит из черепа между глазами и входит в клюв через одну из ноздрей.

А у муравьеда язык прикреплён к грудине, между ключиц. Слоны – единственные животные, у которых четыре полноценных коленных сустава. Коалы имеют отпечатки пальцев, которые почти неотличимы от человеческих. У акул нет костей. Из ближайшие родственники — скаты. Крокодилы могут не есть целый год (но грустят). Зебры чёрные с белыми полосами, а не наоборот (белые появляются на чёрной коже). 1% людей имеет шейные рёбра. Кальмары, каракатицы осьминоги могут редактировать свою РНК «на лету».

Оказывается, Рене Декарт для России придумал декартову систему координат, а для всего остального мира — картезианскую. Потому что имя Декарта — Descartes, то есть Des Cartes, соответственно — Cartesian.

Мозг и большие языковые модели: Путеводитель по предсказательной обработке | 09 февраля 2025 года, 21:39

Я тут подумал, что понимание, как работают большие языковые модели (LLM; типа ChatGPT) объясняет как вероятно работает наш (по крайней мере мой) мозг и наоборот, наблюдение за тем, как работает мозг, может дать лучшее понимание, как тренировать LLM.

Ну вы знаете, что в основе LLM лежит простая логика — подбор подходящего следующего слова после N известных, образующих «контекст». Для этого LLM обучают на гигатском корпусе текстов, чтобы показать, какие слова идут ОБЫЧНО после каких в каком контексте.

Так вот когда изучаешь любой английский язык, по сути, этот этап тоже неизбежен. Нужно сталкиваться с потоком слов в любом виде — письменном или устном, чтобы мозг обнаружил и усвоил закономерности просто через наблюдение или слушание (а лучше и то, и то — мультимодальность).

В LLM за единицу берутся вообще не слова, а токены — слова и часто части слов. После обработки этого огромного корпуса текстов оказалось несложным найти просто наиболее частые последовательности, которые конечно оказались где-то словами, а где-то частями слов. Так вот, когда начинаешь говорить что-то на иностранном языке, особенно с системой окончаний, начинаешь произносить начало слова, и мозг в этот момент кипит над «вычислением» окончания.

Когда мы читаем текст или слушаем, мы на самом деле не разбираем слова по буквам, потому что очень часто там просто пропадают важные куски из-за быстрой или невнятной речи, опечаток. Но мозгу вообще не надо перебирать все слова, выглядящие или звучащее как данное, ему нужно понять, совпадает ли что услышано или увидено с очень ограниченным набором слов, которые в принципе могут стоять после предыдущего слова.

Отдельная история с целыми фразами. В нашем мозгу они образуют единый «токен». То есть, не разбиваются по отдельным словам, если специально об этом не думать. И такие токены тоже идут в потоке не случайно — мозг их ожидает, и как только слышит или видит знаки, что фраза появилась, дальше круг вариантов сужается до буквально 1-2 возможных фраз с таким началом и все, какая-то одна из них является тем, что и сказано или написано.

Но самое интересное, что недавнее исследование показало: человеческий мозг действительно работает очень похоже на LLM. В работе «The neural architecture of language: Integrative modeling converges on predictive processing» ученые MIT показали, что модели, которые лучше предсказывают следующее слово, также точнее моделируют активность мозга при обработке языка. То есть механизм, используемый в современных нейросетях, не просто вдохновлен когнитивными процессами, а реально отражает их.

В эксперименте анализировались данные fMRI и электрокортикографии (ECoG) во время восприятия языка. Исследователи обнаружили, что лучшая на тот момент предсказательная модель (GPT-2 XL) могла объяснять почти 100% объяснимой вариации нейронных ответов. Это значит, что процесс понимания языка у людей действительно строится на предсказательной обработке, а не на последовательном анализе слов и грамматических конструкций. Более того, именно задача предсказания следующего слова оказалась ключевой — модели, обученные на других языковых задачах (например, грамматическом анализе), хуже предсказывали мозговую активность.

Если это правда, то ключ к fluent чтению и говорению на иностранном языке — это именно тренировка предсказательной обработки. Чем больше мозг сталкивается с потоком естественного языка (как письменного, так и устного), тем лучше он может формировать ожидания о следующем слове или фразе. Это также объясняет, почему носители языка не замечают грамматических ошибок или не всегда могут объяснить правила — их мозг не анализирует отдельные элементы, а предсказывает целые паттерны речи.

Получается, если хочется говорить свободно, нужно не просто учить правила, а буквально погружать мозг в поток языка — слушать, читать, говорить, чтобы нейросеть в голове натренировалась предсказывать слова и структуры так же, как это делает GPT.

При этом, есть гипотеза предсказательного кодирования, утверждающая, то в отличие от языковых моделей, предсказывающих только ближайшие слова, человеческий мозг формирует предсказания на разных уровнях и временных масштабах. Ее проверяли уже другие ученые (гуглите Evidence of a predictive coding hierarchy in the human brain listening to speech).

Короче, о чем там. Мозг работает не только на предсказание следующего слова, но как бы запускается несколько процессов разного «разрешения». Височная кора (низший уровень) предсказывает краткосрочные и локальные элементы (звуки, слова). Лобная и теменная кора (высший уровень) предсказывает долгосрочные и глобальные языковые структуры. Семантические прогнозы (смысл слов и фраз) охватывают более длительные временные интервалы (≈8 слов вперёд). Синтаксические прогнозы (грамматическая структура) имеют более короткий временной горизонт (≈5 слов вперёд).

Если попробовать перенести эту концепцию в архитектуру языковых моделей (LLM), можно улучшить их работу за счёт иерархической предсказательной системы. Сейчас модели типа GPT работают с фиксированным контекстным окном — они анализируют ограниченное количество предыдущих слов и предсказывают следующее, не выходя за эти рамки. Однако в мозге предсказания работают на разных уровнях: локально — на уровне слов и предложений, и глобально — на уровне целых смысловых блоков.

Один из возможных способов улучшить LLM — это добавить в них механизм, который будет одновременно работать с разными временными горизонтами.

Интересно, можно ли настроить LLM так, чтобы одни слои специализировались на коротких языковых зависимостях (например, соседних словах), а другие — на более длинных структурах (например, на смысловом содержании абзаца). Я гуглю, что-то похожее есть в теме по «hierarchical transformers», где слои взаимодействуют между собой на разных уровнях абстракции, но там все-таки это больше для обработки супердлинных документов.

Как я понимаю, проблема с тем, что для такого нужно с нуля обучать фундаментальные модели, и наверное, это не очень работает на неразмеченном или плохо размеченном контенте.

Другой вариант — использовать многозадачное обучение, чтобы модель не только предсказывала следующее слово, но и пыталась угадать, о чём будет ближайшее предложение или даже целый абзац. Вроде как, опять же, гуглеж показывает, что это можно реализовать, например, через разделение голов (attention heads) в трансформере, где одни части модели анализируют короткие языковые зависимости, а другие прогнозируют более долгосрочные смысловые связи. Но как только я погружаюсь в эту тему, у меня взрывается мозг. Там все реально сложно.

Но возможно, если удастся встроить в LLM такую многоуровневую систему предсказаний, то они смогут лучше понимать контекст и генерировать более осмысленные и согласованные тексты, приближаясь к тому, как работает человеческий мозг.

Буду в марте на конференции по теме, нужно будет поговорить с учеными мужами.

Гуляя с Юки: Зимний день у пруда | 08 февраля 2025 года, 15:13

Гуляю с Юки. Некоторые утки долго не шевелятся. Наверное, у них такая игра.

Прилетели нам пруд, а тут ещё лёд. Видимо, пёрышки грязные, и им грустно

Помощники AI в моей повседневной жизни | 05 февраля 2025 года, 21:04

Короче, у меня теперь ChatGPT зависимость. Он обогнал уже гугл и фейсбук и лезет во все области жизни потихоньку.

(Конкретно я использую не только ChatGPT, потому что для определенных нужд нам нужно пользоваться аналогом, запущенном нашими инженерами во внутренней корпоративной сети, поэтому все ниже не только про ChatGPT, а в целом про AI помощников в целом. Но для личных нужд у меня это только ChatGPT)

(1) Итак, за последние полгода я создал, наверное, пару сотен скриптов на питоне для обработки данных. Ни один из скриптов я не писал сам (хотя могу; но спросите меня через годик-два, может уже не смогу). Чтобы написать скрипт для обработки данных, я просто формулирую очень четко что мне нужно, потом внимательно смотрю на результат, и если он мне нравится, я его запускаю. Если он не работает, и нужно что-то подправить, я подправляю сам. Если в принципе не то получилось, то я прошу переделать. Чаще всего получается то. Пример: прочитать CSV, создать эмбеддинги для всех строк, кластеризовать, результат записать в отдельные файлы с номером кластера в имени. Или сделать какую-то группировку данных хитрую.

Отдельно надо сказать про команды bash. Например, я не могу на память написать как через командную строку отсортировать строчки из файла по длине и дать мне самые длинные. Или мне влом вспоминать детальный синтаксис awk или jq, чтобы через pipe обработать что-то из файликов, проще спросить у ChatGPT.

(2) За последнее время я очень часто перевожу на английский и с английского с помощью LLM. То есть, вместо того, чтобы пойти написать что-то самому на английском, мне проще написать на русском, получить перевод, а потом его закинуть в письмо. Это тупо быстрее. Тут даже дело не в знании английского — я конечно, могу и сам написать все тоже самое. Дело в том, сколько времени тратится на формулировки. Аргумент «получается вдвое быстрее и более понятно» бьет все остальное. Из минусов — английский у меня лучше от этого не становится.

(3) В целом, я провожу через различные LLM — в зависимости того, что за текст — почти 100% текстов на английском, которые я пишу. Прошу поправить грамматику, результат копипасчу куда мне там надо копипастить. В письмо или в джиру. Кажется, у меня скоро будет комплекс, что я отправил что-то не проверив. Потому что исправляют меня, хоть и по мелочам, всегда. Где-то артикль не тот, где-то запятой нет.

(4) Когда лень читать большие куски текста на английском, я все чаще их закидываю в ChatGPT и прошу сделать саммари — иногда на русском. По работе так нельзя, потому что куски текста часто от клиента, но если очень надо, есть и локальная LLM.

(5) Я все чаще валидирую всякие дизайн-решения (не визуальный дизайн, а дизайн ПО) через ChatGPT/LLM. Предлагаю покритиковать или дополнить. Очень часто результат наводит на мысли, где что-то надо доработать, или добавить ассампшенов.

(6) А еще я использую для суммаризации видосов на Youtube. Просто скачиваешь через youtube subtitle downloader субтитры в формате TXT, и закидываешь в LLM, и дальше по ним можно задавать вопросы или суммаризацию запросить. Очень помогает понять, смотреть или нет видео.

А какие у вас паттерны использования?