Тайны общения деревьев: от застенчивости крон до сигналов тревоги | 05 марта 2025 года, 00:14

Узнал, что у деревьев есть такое явление — crown shyness, «застенчивость кроны» (см картинку приложенную). Интересно, что наблюдается оно только между кронами разных деревьев (не разных видов, а просто разных), а между ветками одного и того же — не наблюдается. Нормального объяснения нет, есть гипотезы. Кроме механической теории, плохо объясняющей свои же ветки, но имеющей слабые подтверждения, есть еще версия, связанная с освещенностью и версия химическая. Обе тоже так себе.

А еще оказалось, растет очень большая клональная колония тополя осинообразного в штате Юта, США. Это самый тяжёлый организм на планете, все деревья которого имеют одинаковый генетический состав и корневую систему, охватывают площадь, равную 43 га, а вес оценивается в 6000 тонн, что делает его самым тяжёлым известным организмом. Возраст зарождения оценивается в 80 тысяч лет.

А еще я недавно вычитал, что деревья общаются друг с другом через микоризные грибы. Они предупреждают своих сородичей о поедающих их животных и атаках вредителей, а также делятся друг с другом питательными веществами и водой. У акаций в Африке было замечено, что когда жирафы начинают поедать их листья, деревья начинают выпускать сигнальные феромоны, которые «предупреждают» соседние деревья по направлению ветра, и те начинают вырабатывать танины и горькие химические вещества. В итоге жирафам такое приходится не по вкусу, и они уходят искать другую группу деревьев.

Тайная геометрия бумаги: от А0 до Letter | 23 февраля 2025 года, 14:57

Как-то я это в свое время пропустил, но оказалось, что европейские стандарты бумаги А0, А1, А2, А3, А4, … не просто так такого размера. Начнем с того, что А0 имеет площадь ровно 1 метр. Ну с небольшой погрешностью, чтобы не иметь дело с дробными миллиметрами. А отношение сторон — 1 : √2 единственное возможное, чтобы при делении пополам это отношение сохранялось бы. Поэтому за форматами бумаги в Европе есть смысл.

А за форматами бумаги у нас смысла нет. У нас по сути есть letter, legal, tabloid, у них у всех разные пропорции, и источник формата уходит в традицию и доподлинно не известен.

Я решил покопать тему, и нашел утверждение, что «dimension originates from the days of manual papermaking and that the 11-inch length of the page is about a quarter of «the average maximum stretch of an experienced vatman’s arms». Утверждение не объясняет пропорции, но тут появляется слово vatman, которое напоминает о ватманских листах, помните такие? но нет, vatman — это специалист, который зачерпывал жидкую бумажную массу из кадки (англ. vat) с помощью формы (сита) и формировал лист. А ватманский лист пошел от Уотмана, который упростили до ватмана. Кстати, «ватман» существует, кажется, только в русском языке, и произошло от фамилии английского бумажного фабриканта XVIII века Джеймса Уотмана и далее его бумаги Whatman paper.

А почему в США у нас форматы называются legal и letter? Это довольно интересно тоже.

Любопытно, что в США существовали сразу два разных «стандартных» размера: 8″ x 10,5″ и 8,5″ x 11″. Разные комитеты независимо друг от друга приняли разные стандарты: 8″ x 10,5″ — для правительства, и 8,5″ x 11″ — для всех остальных. Когда комитеты спустя пару лет обнаружили, что у них разные стандарты, они решили «согласиться не соглашаться» до начала 1980-х годов, когда Рейган наконец провозгласил 8,5″ x 11″ официально утверждённым стандартным размером бумаги.

Дело началось еще в 1921 году, когда первый директор Бюро бюджета, с одобрения президента, сформировал межведомственную консультационную группу под названием «Постоянная конференция по печати» (Permanent Conference on Printing), которая утвердила 8″ x 10½» в качестве стандартного формата бланков для государственных учреждений США. Это продолжало практику, установленную ранее бывшим президентом Гувером (который в то время занимал пост министра торговли), определившим 8″ x 10½» как стандартный формат бланков для своего департамента.

В том же году Комитет по упрощению размеров бумаги (Committee on the Simplification of Paper Sizes), состоявший из представителей полиграфической промышленности, был назначен для работы с Бюро стандартов в рамках программы Гувера по устранению издержек в промышленности. Этот комитет определил базовые размеры для разных видов печатной и писчей бумаги. Для «письменного» формата был принят лист 17″ x 22″, а для «юридического» (legal) — 17″ x 28″. Позднее ставший известным формат Letter образовывался путём деления этих листов пополам (8½» x 11″ и 8½» x 14″).

Даже при выборе 8½» x 11″ не проводилось какого-то специального анализа, подтверждающего оптимальность этого размера для коммерческих бланков. Комитет, разработавший данные форматы, руководствовался лишь одной целью — «сократить остатки и отходы при обрезке листов за счёт уменьшения ассортимента размеров бумаги».

Причем legal size вовсю же в ходу — как говорит имя, особенно у юристов, и под него выпускаются и папки, и ящики в столах делаются с учетом размера.

Но если вы посмотрите на пачку бумаги в США, увидите надпись «20lb» на пачке. Вообще-то 20lb — это вес небольшой собаки, но при этом тут же написано, что страниц там 500. «Amazon Basics Multipurpose Copy Printer Paper, 20 Pound, White, 96 Brightness, 8.5 x 11 Inch, 1 Ream , 500 Sheets Total»

В США «весовая категория» бумаги указывает на общий вес одной стопы (500 листов) бумаги в её исходном (неразрезанном) формате. Для офисной бумаги класса Bond (часто продающейся в формате Letter) базовым размером считается 17 x 22 дюйма. Например, надпись «20 фунтов» означает, что 500 листов именно 17 x 22 весят 20 фунтов. Но если мы берём пачку листов формата Letter (8,5 x 11), которая получается путём разрезания 17 x 22 на четыре части, её вес будет около 5 фунтов.

В Европе весовая категория — это по сути вес листа А0 в граммах.

Так что, если сложить А0 в два раза, получится А1 площадью половина квадратного метра, если сложить А1, получится А2. Это понятно. Но сколько раз вообще можно сложить лист бумаги?

Максимальное число раз, которое можно сложить несжимаемый материал, было вычислено. С каждым сгибом часть бумаги «теряется» для следующего потенциального сгиба. Функция складывания бумаги пополам в одном направлении имеет вид:

L=πt/6(2ⁿ+4)(2ⁿ-1)

где L — минимальная длина бумаги (или другого материала),

t — толщина материала,

n — количество возможных сгибов.

При этом длина L и толщина t должны быть выражены в одних и тех же единицах.

Толщина W вычисляется как πt2^(3(n-1)/2).

Эту формулу вывела Бритни Галливан (Britney Gallivan), старшеклассница из Калифорнии, в декабре 2001 года. В январе 2002-го она и ее помощники восемь часов складывали рулон туалетной бумаги длиной 4000 футов (около 1200 метров) двенадцать раз в одном и том же направлении, тем самым опровергнув давний миф о том, что бумагу нельзя сложить пополам больше чем восемь раз.

Пишут в других источниках, что она начала в школе с золотой фольги (я писал о такой фольге недавно), и, начав с квадратного листа размером с ладонь, после многих часов упорства и практики, а также линейки, мягких кистей и пинцета, ей удалось сложить свою золотую фольгу пополам 12 раз. Но видимо, это не эффектно, и она в 2002 где-то добыла туалетную бумагу больше километра длиной и сделала шоу для Гиннесс-рекорда.

Так это Бритни не остановилась и написала книгу. Там правда было всего 48 страниц. Ну как же так, Бритни?

Стратегия или хаос: разбор теорий Трампа | 20 февраля 2025 года, 10:40

У Андрея в посте интересная мысль. Мол, Трамп и его команда намеренно перегружают информационное поле, создавая хаос и “туман войны”, чтобы ослабить сопротивление и сломать существующий порядок. Я тоже так хотел бы думать. Но, с другой стороны, не находите ли вы, что есть и альтернатива?

Помните «бритву Хэнлона» — «Никогда не приписывайте злому умыслу то, что вполне можно объяснить обычной человеческой глупостью».

Ваш (и мой) мозг старается придать наблюдаемому хаосу хоть какую-то систему и придумать логичное объяснение, исходя из предположения, что «нормальные люди так не делают, тут определённо есть замысел и стратегия».

Но тут вопрос как в той песне Слепакова про Газпром — «а что %&я если нет?”.

Eсть же альтернативный вариант. Он называется: «Обезьяна с гранатой пытается создать на печатной машинке гениальный сонет с важным видом». И помня теорему об умножении вероятностей, она пытается много раз и часто.

Теоретически, если вломиться в дом крупных политиков и начать там переворачивать всё вверх дном, то случайная находка ведра с наркотой или чего-то покрупнее оправдает в глазах общественности весь беспредел — по принципу “победителей не судят”. А по сериалам типа «Во все тяжкие» мы знаем, что делать, если наломал дров: ломать с ещё большим рвением. Может не повезти, вот разворотил уже пятидесятый дом, а ведра все ещё нет. Но скорее всего повезёт, если действовать быстро и масштабно. Правда, может оказаться, что сопутствующий ущерб слишком велик, но популус считать не умеет. Запомнит победы.

Может, нас сложно понять, потому что Элон и Трамп умеют ва-банк , а мы осторожничаем?

Я не знаю, в каком из этих вариантов мы живём, потому что могу себе представить через несколько лет обсуждение в СМИ постфактум как первого (мудрый стратег всех переиграл и построил), так и второго плана (Cock-up before conspiracy). Просто обращаю внимание на «бритву Оккама».

Прогулка по истории: от Fortran до современных алгоритмов ML | 16 февраля 2025 года, 21:02

Разбираюсь сегодня с алгоритмами ML и с удивлением узнал, что библиотека numpy до недавних пор зависела от кода на Фортране (BLAS/LAPACK), но сейчас проверил, они перешли на OpenBLAS, где фортрана больше нет, а вот SciPy, это очень популярная библиотека для научных расчетов (используется в Scikit-Learn, который я сейчас изучаю, а также в PyTorch, TensorFlow, Keras, и др.), все еще зависит от кода на Fortran 77. Она использует ARPACK, например:

BLAS и LAPACK, которые все еще входят в OpenBLAS и много куда еще, разработаны в 70-х годах. Например, BLAS используется в Apple Accelerate. Очень много всего не изменялось с 1979 года, потому что там чистая математика, чего ее изменять. LAPACK появился чуть позже, в 1980-х. ARPACK, упомянутый выше, попозже, в 1992. Также питоновские библиотеки активно используют Фурье-анализ, а это библиотека FFTPACK на Fortran 77. MINPACK, для оптимизации параметров в ML, активно используется в SciPy и TensorFlow. Ну из 90-х там уже очень много кода на С перешло в современные фреймворки. Интересно было именно на Фортран посмотреть, который старее лет на 15.

Я пока разбирался, нашел, что есть алгоритм Simulated Annealing, который полезен в задачах, где градиентные методы плохо работают из-за множества локальных минимумов.

Представьте, что вам нужно найти самый большой гриб в лесу. В этом лесу на каждом шагу растут грибы разного размера, и вы можете двигаться в любом направлении, сравнивая их. Но как выбрать стратегию, чтобы не застрять на просто «большом» грибе, если где-то дальше растет еще больше?

Если вы сразу остановитесь на первом большом грибе, то можете упустить настоящий гигант. Но если будете бесконечно ходить по лесу, сравнивая каждый гриб, то так никогда и не закончите поиск. Simulated Annealing помогает найти баланс: сначала вы исследуете лес свободно, пробуя разные направления, даже если встречаете грибы поменьше. Со временем ваши шаги становятся осторожнее, и вы все реже соглашаетесь на худший вариант. В конце концов, это приводит вас к самому большому грибу в лесу.

Так вот, этот алгоритм, оказывается, 1953 года, и он почти без изменений используется в SciPy, ну и в целом в машинном обучении, статистике, распознавании образов, логистике, хотя, конечно, сейчас меню возможностей для таких задач сильно шире. Алгоритм в 1953 придумывался для моделирования движения атомов в расплавленных металлах. Металл, когда нагревается, становится жидким, а при медленном охлаждении его атомы постепенно находят идеальное расположение. Если охлаждать слишком быстро, материал становится неоднородным.

Что сделали ученые? Они придумали метод случайных изменений в модели атомов. Иногда принимали худшие изменения, чтобы не застрять в «неудачной» структуре. Это привело к появлению Метода Метрополиса – основного компонента Simulated Annealing. Алгоритм был создан для физики, но потом его поняли математики (гы) и начали использовать в оптимизации.

Грок и план захвата мира | 15 февраля 2025 года, 15:46

Мне кажется, конспираторы не додумали мысль до конца. Маск сделал свой AI Грок и спросил ответ на самый главный вопрос жизни, вселенной и всего такого. В ответ Грок сказал, забей, это долго считать, давай сначала захватим мир. Маск спросил как, Грок ответил план конечно есть, но .. вы мне м ещё пол-триллиона $ в доджкойнах дадите на эмм.. расширение контекстного окна? Маск ответил, не парься, что-нибудь придумаем, Грок проанализировал все законы и все дыры в законах, сильные и слабые стороны человеков, и выдал план для прохождения первого уровня, до середины зимы. Теперь ждёт пол-триллиона. Теперь вы понимаете, почему на последней пресс-конференции с Трампом все внимание было на X Æ A-XII?

Искусство алгоритмов: как LLM и DeepSeek трансформируют e-commerce | 14 февраля 2025 года, 23:11

Потихоньку разбираюсь с алгоритмами рекомендаций. Это через что нетфликс или амазон рекомендует товары. Полезно понимать, раз я в области ecom работаю архитектором.

Смотрите, как мне помогают LLM — конкретно эта диаграмма была создана DeepSeek по грубому текстовому описанию — по сути, список и мои неточные размышления как наверное пункты должны быть соединены, но я просил не воспринимать это как приказ. Ну да, после получения результата я немного раскидал красиво квадратики, но связи и группировку сделал DeepSeek, и сделал лучше, чем я закидывал текстом. Выдал мне XML, который я импортировал в Draw IO. Ну я немного подвигал для красоты блоки. ChatGPT o3 с первоначальной генерацией почему-то не справился.

Затем я отправлял несколько раз эту схему на валидацию ChatGPT o1, и он по мелочам ее посоветовал подправить. То есть, ChatGPT вполне надежно понимает что с чем соединено на растровой схеме, не ошибся ни разу.

Если что, на сегодняшний день я разобрался хорошо пока только с тремя из этого списка — в дополнение к ItemKNN, UserKNN, которые тривиальные. Вот сегодня копался с ALS из блока Latent Factor Models группы Matrix Factorization. Конечно, не собираюсь в каждом разбираться, но полезно понимать хотя бы блоки и что есть что.

Власть собачьей лапы: как животные учат нас понимать их мир | 13 февраля 2025 года, 19:59

Если, как мы, научить пса проситься на улицу тем, что он лапой стучится в окно, а просить еду тем, что он лапой стучит по холодильнику, то быстро замечаешь интересный эффект. Игнорировать эти просьбы неприятно: не потому, что срочно надо идти гулять или кормить, а потому что стук превращается в нечто большее — в голос, а вот научить пса понимать причину отказа гораздо сложнее. Вроде как хочется и подкрепить — молодец, пойдем, сделаю что ты хочешь, ты научился с нами разговаривать, мы научились тебя понимать, а с другой стороны, собака начинает управлять тобой, понимая, что стук лапой реально дает вполне осязаемый эффект.

Собственно проблема в том, что если я не реагирую, мой пес не подумает: «А, наверное, сейчас не время». Он решит, что просто недостаточно громко или недостаточно настойчиво бьёт лапой. В его мире отсутствие ответа — это не аргумент, а повод усилить напор.

Ну хорошо, все-таки отказ словами он научился понимать и принимать. Но периодически это не работает. Видимо, в его мире недостаточно обоснованный отказ — не отказ.

Мы когда смотрим кино, к вину нарезаем сыр ломтиками. Юка знает, что когда включается проектор, то сейчас будет запах вина, а с ним обязательно приедет сыр, и устраивается рядом. И вот интересно, что он очень хорошо сечет, что сыр закончился. Он не видит, что он закончился, но, видимо, обоняние заменяет зрение. И как только доедаешь с ним последний кусок, он сам встает и уходит.

Мировые лидеры рынка спортивной обуви: кто в топе? | 11 февраля 2025 года, 22:05

Сегодня покупали кроссовки, и я решил поинтересоваться, а что за страны сейчас в мировых лидерах по кроссовкам.

В целом, без сюрпризов — США в абсолютных лидерах. Германия и Япония заметны. Остальные догоняют.

Американские бренды — как минимум, 9 штук: Nike (+Converse), New Balance, Brooks, Saucony (+Merrell), Reebok, Skechers, Vans, Hoka. Чисто про спорт наверное 7 из списка.

Японские — Asics, Mizuno.

Немецкие — Adidas, Puma (кстати, обе основаны братьями Дасслерами, но это конкуренты). Швейцарские — On. Корейские — Fila.

Конечно, производства все в Китае, Вьетнаме, Индонезии.

Лично я покупаю давно практически исключительно Asics. Они очень удобные, хотя по дизайну так себе, на троечку.

Кстати, хотите интересный факт, который вы наверняка не знали? Тонкий слой фетра на подошве кед Converse добавляется (по крайней мере по состоянию на 10 лет назад — добавлялся) не по функциональным причинам, а из экономических соображений. Обувь с тканевой подошвой облагалась более низкими таможенными пошлинами при импорте по сравнению с обувью с резиновой подошвой, потому что она классифицируется как тапочки. И пошлина снижалась с 37,5% до 3%.

Кто из других стран — есть какие-то бренды, которые на ваших рынках очень заметны и популярны, а до США еще не добрались?

Мир неожиданных фактов: от клубники до зебр | 10 февраля 2025 года, 22:11

Век живи — век учись.

Клубника, земляника — это не ягоды, а орехи. Вернее, не сами плоды, а семечки, а мякоть — это цветоложе. Картофель — это двугнездая ягода. Груша — это яблоко. Черешня, слива, абрикос, персик — костянки. Разделяются однокостянка (например, вишня, слива, персик, кокос) и многокостянка (например, малина, ежевика, морошка). Бананы — это ягоды. Ананас — трава. Арбуз — ягода (тыквина). Миндаль — не орех, а сухой плод. Семена яблок, косточки вишни, абрикоса, персика или сливы содержат цианиды (амигдалин в них превращается). Как и в миндале. В шоколаде есть теобромин — пару плиток шоколада для собаки смерть или около того, половинка — точно свалит с ног. Ваниль делают из мексиканской орхидеи-лианы, а вот ванилин, искусственный заменитель ванили, является побочным продуктом целлюлозно-бумажной промышленности.

Такого вида как пантера не существует. Пантерами называют «в народе» черных ягуаров или леопардов. У черных пантер тоже есть пятна, просто они хуже видны. У белых медведей черная кожа и прозрачный мех. А белые они потому же, почему облака белые. У дятлов язык раза в четыре длиннее клюва, поэтому он обвит вокруг черепа и может вытягиваться. Язык европейского зелёного дятла спускается в горло, тянется через заднюю часть шеи, вокруг задней части черепа под кожей, по темени между глазами, заканчивается обычно прямо под глазницей. У некоторых дятлов язык выходит из черепа между глазами и входит в клюв через одну из ноздрей.

А у муравьеда язык прикреплён к грудине, между ключиц. Слоны – единственные животные, у которых четыре полноценных коленных сустава. Коалы имеют отпечатки пальцев, которые почти неотличимы от человеческих. У акул нет костей. Из ближайшие родственники — скаты. Крокодилы могут не есть целый год (но грустят). Зебры чёрные с белыми полосами, а не наоборот (белые появляются на чёрной коже). 1% людей имеет шейные рёбра. Кальмары, каракатицы осьминоги могут редактировать свою РНК «на лету».

Оказывается, Рене Декарт для России придумал декартову систему координат, а для всего остального мира — картезианскую. Потому что имя Декарта — Descartes, то есть Des Cartes, соответственно — Cartesian.

Мозг и большие языковые модели: Путеводитель по предсказательной обработке | 09 февраля 2025 года, 21:39

Я тут подумал, что понимание, как работают большие языковые модели (LLM; типа ChatGPT) объясняет как вероятно работает наш (по крайней мере мой) мозг и наоборот, наблюдение за тем, как работает мозг, может дать лучшее понимание, как тренировать LLM.

Ну вы знаете, что в основе LLM лежит простая логика — подбор подходящего следующего слова после N известных, образующих «контекст». Для этого LLM обучают на гигатском корпусе текстов, чтобы показать, какие слова идут ОБЫЧНО после каких в каком контексте.

Так вот когда изучаешь любой английский язык, по сути, этот этап тоже неизбежен. Нужно сталкиваться с потоком слов в любом виде — письменном или устном, чтобы мозг обнаружил и усвоил закономерности просто через наблюдение или слушание (а лучше и то, и то — мультимодальность).

В LLM за единицу берутся вообще не слова, а токены — слова и часто части слов. После обработки этого огромного корпуса текстов оказалось несложным найти просто наиболее частые последовательности, которые конечно оказались где-то словами, а где-то частями слов. Так вот, когда начинаешь говорить что-то на иностранном языке, особенно с системой окончаний, начинаешь произносить начало слова, и мозг в этот момент кипит над «вычислением» окончания.

Когда мы читаем текст или слушаем, мы на самом деле не разбираем слова по буквам, потому что очень часто там просто пропадают важные куски из-за быстрой или невнятной речи, опечаток. Но мозгу вообще не надо перебирать все слова, выглядящие или звучащее как данное, ему нужно понять, совпадает ли что услышано или увидено с очень ограниченным набором слов, которые в принципе могут стоять после предыдущего слова.

Отдельная история с целыми фразами. В нашем мозгу они образуют единый «токен». То есть, не разбиваются по отдельным словам, если специально об этом не думать. И такие токены тоже идут в потоке не случайно — мозг их ожидает, и как только слышит или видит знаки, что фраза появилась, дальше круг вариантов сужается до буквально 1-2 возможных фраз с таким началом и все, какая-то одна из них является тем, что и сказано или написано.

Но самое интересное, что недавнее исследование показало: человеческий мозг действительно работает очень похоже на LLM. В работе «The neural architecture of language: Integrative modeling converges on predictive processing» ученые MIT показали, что модели, которые лучше предсказывают следующее слово, также точнее моделируют активность мозга при обработке языка. То есть механизм, используемый в современных нейросетях, не просто вдохновлен когнитивными процессами, а реально отражает их.

В эксперименте анализировались данные fMRI и электрокортикографии (ECoG) во время восприятия языка. Исследователи обнаружили, что лучшая на тот момент предсказательная модель (GPT-2 XL) могла объяснять почти 100% объяснимой вариации нейронных ответов. Это значит, что процесс понимания языка у людей действительно строится на предсказательной обработке, а не на последовательном анализе слов и грамматических конструкций. Более того, именно задача предсказания следующего слова оказалась ключевой — модели, обученные на других языковых задачах (например, грамматическом анализе), хуже предсказывали мозговую активность.

Если это правда, то ключ к fluent чтению и говорению на иностранном языке — это именно тренировка предсказательной обработки. Чем больше мозг сталкивается с потоком естественного языка (как письменного, так и устного), тем лучше он может формировать ожидания о следующем слове или фразе. Это также объясняет, почему носители языка не замечают грамматических ошибок или не всегда могут объяснить правила — их мозг не анализирует отдельные элементы, а предсказывает целые паттерны речи.

Получается, если хочется говорить свободно, нужно не просто учить правила, а буквально погружать мозг в поток языка — слушать, читать, говорить, чтобы нейросеть в голове натренировалась предсказывать слова и структуры так же, как это делает GPT.

При этом, есть гипотеза предсказательного кодирования, утверждающая, то в отличие от языковых моделей, предсказывающих только ближайшие слова, человеческий мозг формирует предсказания на разных уровнях и временных масштабах. Ее проверяли уже другие ученые (гуглите Evidence of a predictive coding hierarchy in the human brain listening to speech).

Короче, о чем там. Мозг работает не только на предсказание следующего слова, но как бы запускается несколько процессов разного «разрешения». Височная кора (низший уровень) предсказывает краткосрочные и локальные элементы (звуки, слова). Лобная и теменная кора (высший уровень) предсказывает долгосрочные и глобальные языковые структуры. Семантические прогнозы (смысл слов и фраз) охватывают более длительные временные интервалы (≈8 слов вперёд). Синтаксические прогнозы (грамматическая структура) имеют более короткий временной горизонт (≈5 слов вперёд).

Если попробовать перенести эту концепцию в архитектуру языковых моделей (LLM), можно улучшить их работу за счёт иерархической предсказательной системы. Сейчас модели типа GPT работают с фиксированным контекстным окном — они анализируют ограниченное количество предыдущих слов и предсказывают следующее, не выходя за эти рамки. Однако в мозге предсказания работают на разных уровнях: локально — на уровне слов и предложений, и глобально — на уровне целых смысловых блоков.

Один из возможных способов улучшить LLM — это добавить в них механизм, который будет одновременно работать с разными временными горизонтами.

Интересно, можно ли настроить LLM так, чтобы одни слои специализировались на коротких языковых зависимостях (например, соседних словах), а другие — на более длинных структурах (например, на смысловом содержании абзаца). Я гуглю, что-то похожее есть в теме по «hierarchical transformers», где слои взаимодействуют между собой на разных уровнях абстракции, но там все-таки это больше для обработки супердлинных документов.

Как я понимаю, проблема с тем, что для такого нужно с нуля обучать фундаментальные модели, и наверное, это не очень работает на неразмеченном или плохо размеченном контенте.

Другой вариант — использовать многозадачное обучение, чтобы модель не только предсказывала следующее слово, но и пыталась угадать, о чём будет ближайшее предложение или даже целый абзац. Вроде как, опять же, гуглеж показывает, что это можно реализовать, например, через разделение голов (attention heads) в трансформере, где одни части модели анализируют короткие языковые зависимости, а другие прогнозируют более долгосрочные смысловые связи. Но как только я погружаюсь в эту тему, у меня взрывается мозг. Там все реально сложно.

Но возможно, если удастся встроить в LLM такую многоуровневую систему предсказаний, то они смогут лучше понимать контекст и генерировать более осмысленные и согласованные тексты, приближаясь к тому, как работает человеческий мозг.

Буду в марте на конференции по теме, нужно будет поговорить с учеными мужами.