Education — Страница 4

Планы на 2026: от Галапагосских островов до PhD | 2026-01-20T04:44:36

Мой план на 2026:

— Уехать на неделю на Галапагоссы, в Эквадор (лето)

— Дописать и выпустить книжку по Information Retrieval (тоже лето, идет медленно, пара первых глав уже написана. Уже потратил на эту тему часов 50-100, то, что шло легко)

— Выпустить как минимум одну научную статью, видимо по Data Mining (весна). В идеале засабмиттить куда-нибудь в журнал (сложно). Уже потратил на эту тему часов 30, осталось еще дохрена.

— Сделать шаг к PhD. Найти профессоров, посетить универы, понять цену вопроса и оценить свои возможности и ресурсы.

— Продолжить изучать фундаментальную математику и не умереть (линейная алгебра, матанализ, тервер, статистика, классическое ML). В 2025 потратил на эту тему часов 200-400.

— Продолжить изучать Deep Learning и дойти до уровня «могу преподавать». В 2025 потратил на эту тему часов 100-200.

— Продолжить изучать Data Mining/NLP.

— Актуализировать мою книжку по RecSys, выпустив версию 2.0 включив обновления и исправления (осень 2026)

— Добиться видимого прогресса в живописи и игре на фортепиано. Конкретно, доучить серенаду Шуберта (Ständchen, D 889) и сделать хотя бы один холст, который не стыдно подарить.

Различия в научных терминах: от России до мира | 2026-01-14T04:46:24

Сегодня с удивлением узнал, что сила Кориолиса оказывается произносится как сила КориолИса, а не кориОлиса, как нас в школе учили. Начал разбираться, а что еще не так, и выяснилось удивительное.

Оказывается, то, что у нас называлось законом Гей-Люссака, во всем остальном мире называется Законом Шарля, а то, что у нас называлось Законом Шарля, во всем мире называется Законом Гей-Люссака.

Декартова система координат тут Carthesian. Cartesius — это просто латинизированное имя Рене Декарта.

В наших учебниках закон сохранения массы называется Законом Ломоносова — Лавуазье (что вступило в хим. реакцию = массе образовавшихся веществ). Во всем остальном мире это исключительно Закон Лавуазье (Lavoisier’s Law). Ломоносов тут затесался только из-за «сколько чего у одного тела отнимется, столько присовокупится к другому».

Еще оказалось, что если на английском придется кому-то объяснить теорему Пифагора, то без подсказки вообще невозможно догадаться, что это Пайтагорас. С греческими именами вообще беда. Фалес тут произносится как Тейлиз.

Почему-то Roentgen в физике называют РентгЕном. Хотя он Рёнтген с ударением на ё.

В России трапеция — это четырехугольник, у которого две стороны параллельны, а две нет. В США наша трапеция называется Trapezoid. А словом Trapezium тут называют четырехугольник, у которого вообще нет параллельных сторон. В Великобритании же все наоборот. Наша трапеция — это Trapezium, а «кривой» четырехугольник — Trapezoid.

Вкус Таиланда в Origin Thai Spa: чай и массаж | 2026-01-08T23:48:03

Купили в нашем тайском массажном салоне Origin Thai Spa сегодня вот это все за $20. ломтиками — чай матум, Bael Fruit Tea. Левее него — пандановый чай. Там же перед покупкой попробовали с hand-made тортиками (вкуснотища!).

В салоне работают тайки, все в возрасте, многие плохо говорят по-английски, но все очень хорошо знают своё массажное дело. Мы там постоянные клиенты с мембершипом, местным очень рекомендую салон. Тайский массаж на любителя, впрочем, потому что когда его делают правильно, он довольно больный в процессе (но полезный и ощущение, что заряжает все внутренние батарейки).

Аватар 3: Дилемма родителя и адаптация в новом мире | 2026-01-06T17:34:26

После просмотра Аватар 3 решили пересмотреть первый и второй. Смотрел как в первый раз, но вот что подумалось.

Для семьи релокация была экстренным спасением от физического уничтожения или принудительного участия в войне. Переезжая, она сталкивается с необходимостью «учиться плавать» в новой правовой, языковой и социальной среде, начиная с нуля и теряя прежний социальный вес. Ощущение «мы здесь чужие» — центральная эмоция. Разрыв связей с друзьями и коллегами, остается только «ядерная семья» как единственный островок идентичности. По сути, решение Джейка бежать, чтобы спасти детей, — это фундаментальная дилемма любого родителя в зоне конфликта: бороться до конца на своей земле или уйти, чтобы сохранить жизнь следующему поколению.

По прилету им с трудом дают визу, и не обещают ПМЖ.Но в итоге приходит понимание, что от глобального конфликта невозможно скрыться географически. Рано или поздно приходится принимать участие в защите своего нового «рифа».

У детей Джейка и у него самого по пять пальцев, в то время как у чистокровных На’ви — четыре. Плюс акцент. Это постоянное визуальное напоминание об их происхождении. Даже если ты полностью интегрирован, всегда есть деталь, которая маркирует тебя как пришлого. Ваши дети могут стать «своими» быстрее, но они все равно несут на себе печать «гибридности».

Кстати, а вот в третьей части все синие уже говорят по-английски. Язык на’ви был полностью им вытеснен.

P. S. Кстати, интересно, что Джейк не принес в новую культуры Пандоры вообще ничего из достижений человечества. Я не знаю, колесо, огонь, медицину, какие-то механические штуки. Ничего.

10 лет динамики и вызовов в EPAM | 2026-01-05T13:43:25

10 лет в EPAM.

Никогда бы не подумал, что мне будет в кайф работать на одном месте целое десятилетие. В чем секрет? В EPAM я не застаиваюсь: проекты сменяют друг друга, не давая заскучать.

Сейчас я на проекте в компании-гиганте: более 100 тысяч сотрудников и выручка за 30 миллиардов долларов. До этого был автопром — махина со штатом в 175 тысяч человек и оборотом в 150 миллиардов. Где-то around был контракт с компанией на 80 тысяч сотрудников и 35 миллиардов дохода. Настоящие масштабы и по-настоящему серьезные вызовы. А еще раньше были косметические бренды, биотех и «нефтянка». В общей сложности — больше 20 проектов самого разного калибра. При том, что у меня была более чем 100% загрузка каждый день. И еще у меня в этом году, кажется, было больше отпуска, чем обычно, но все равно меньше, чем я мог бы взять. Съездил в Коста-Рику, Мексику, Сиеттл, Анталию.

Суть в том, что на каждом новом месте ты учишься чему-то, иногда с нуля. И это чертовски круто. Это дает гораздо больше энергии, чем если бы я «врастал корнями» в любую из этих корпораций на все 10 лет. Возможно, с чисто финансовой точки зрения люди, осевшие в одном месте в этих компаниях, заработали больше меня, но деньги — не приоритет, если ради них приходится жертвовать интересом и азартом. Прожигать жизнь на работе, от которой ты смертельно устал — сомнительное удовольствие.

Прошлый год в EPAM выдался максимально интенсивным, и я искренне надеюсь, что 2026-й не будет сбавлять обороты.

Порочные стимулы: Как KPI могут разрушать системы | 2026-01-04T13:30:19

Про KPI. В английском есть такое понятие perverse incentive, «порочный стимул». Это когда пытаешься придушить зло, но методы превращаются для него в идеальное удобрение. На это есть «Когда мера становится целью, она перестает быть хорошей мерой» (Мэрилин Стратерн на основе Закона Гудхарта).

Классика жанра — «Эффект кобры». В колониальной Индии англичане решили сократить популяцию змей и назначили награду за каждую голову. План казался надёжным, как швейцарские часы, пока индийцы не начали разводить кобр на домашних фермах ради «урожая». Когда власти поняли, что их водят за нос, и отменили выплаты, фермеры просто выпустили бесполезных теперь змей на волю. В итоге кобр стало в разы больше, чем до начала программы 🙂

Похожим образом французы в Ханое боролись с крысами, выплачивая деньги за отрезанные хвосты. По городу стали бегать толпы бодрых, но бесхвостых крыс: вьетнамцы отрезали «валюту» и отпускали зверьков плодиться дальше, чтобы не лишиться стабильного дохода.

В 19 веке археологи, искавшие кости динозавров и древние окаменелости, платили местным жителям за каждую найденную деталь. В итоге находчивые копатели специально разбивали целые, бесценные скелеты на мелкие кусочки, чтобы сдать их по отдельности и заработать побольше. Наука рыдала, зато KPI по «количеству находок» зашкаливал. Аналогичная трагедия произошла со Свитками Мертвого моря: бедуины разрезали найденные свитки на мелкие части, чтобы продать каждый фрагмент отдельно.

В США эта болезнь ударила по инфраструктуре. Когда строили Трансконтинентальную железную дорогу, правительство платило компании Union Pacific субсидии за каждую проложенную милю. В Небраске вместо прямого маршрута инженеры в едином коррупционном порыве вычертили огромную петлю — Oxbow Route. Лишние 9 миль крюка не имели никакого смысла для логистики, но принесли строителям сотни тысяч долларов «из воздуха».

Но если «петля» в Небраске — это просто воровство, то ошибки министра обороны США Роберта Макнамары — это уже трагедия. Будучи фанатом цифр и математических моделей, он пытался управлять войной во Вьетнаме как конвейером Ford.

Когда генерал Эдвард Лэндсдейл робко заметил, что в формулах Макнамары нет переменной «чувства и воля вьетнамского народа», министр записал это карандашом в блокнот. А потом стёр. Он сказал, что если что-то нельзя измерить, значит, оно неважно. Главной метрикой стал body count (подсчёт убитых). Офицеры на местах, желая выслужиться, начали записывать в «враги» всех подряд, рисуя в Вашингтоне иллюзию скорой победы, пока реальная ситуация катилась в бездну.

В науке есть радикальный принцип, похожий на бритву Оккама — «Пылающий лазерный меч Ньютона» (также известный как «Бритва Алдера»). Его суть: если что-то нельзя проверить экспериментом (или измерением), оно вообще не достойно обсуждения.

Звучит здраво для физики, но в жизни это прямой путь к тому, что социолог Даниэль Янкелович назвал деградацией восприятия. Он описал это как спуск по четырём ступеням:

1. Сначала мы измеряем только то, что легко измерить.

2. Затем игнорируем то, что измерить трудно или что требует качественной оценки.

3. Третий шаг — мы решаем, что то, что нельзя измерить, не так уж и важно.

4. И финальный шаг — мы объявляем, что того, что нельзя измерить, на самом деле не существует.

И в этот момент мы становимся слепыми. Мы смотрим на мир через замочную скважину метрик, пока в комнате за дверью разводят кобр, ломают кости динозавров и проигрывают войны.

Магия искусственных нейронных сетей: разделение гласных и согласных | 2025-12-14T23:35:00

Сейчас экспериментирую с обучением простых нейросетей — главным образом для доведение до автоматизма имеющегося инструментария и некоторые штуки просто создают впечатление магии.

Есть база из 32000 имен. Есть нейросеть, заполеннная случайными числами. Запускаю тренировку, на входе — только этот список имен. Первый слой нейросети — эмбеддинги, и я выставляю число измерений 2, чтобы было легко визуализировать. И после 200000 итераций обучения система четко разделяет гласные от согласных, и почему-то чуть в стороне от других согласных ставит букву «q». Похоже, это потому, что буква ‘q’ почти исключительно предсказывает букву ‘u’ (Queen, Quincy, Quentin).

На русских именах тоже очень надежно разделяет гласные и согласные. В русских именах буквы б и л почему-то поодаль от остальных согласных, как и мягкий и твердый знаки (ну с ними понятно).

Интересно, как ж оно работает. Если на нормальном корпусе текстов натренировать, разница будет совсем четкая. Почему отделяются гласные от согласных? Видимо, с точки зрения математики сети, ‘а’ и ‘о’ выполняют одинаковую функцию: они «триггерят» предсказание согласной, следующей за ними, то есть виной всему чередование гласных и согласных. Но черт побери интересно 🙂

Ну и поскольку моделька умеет предсказывать следующие буквы, можно попробовать запустить ее на русском. На модели с эмбеддингами 30 измерений вот такие имена придумывает: бякетта, афсена, еракей, засбат, дарая, гайомахад, раин, ражул, гжаций, ребен, вуреб, дуродира, туружул, регравгава, разсан, габила, авганжа, рахси, халебкохорта, ратхер. Модель — для тех, кто разбирается — такая: вход 6х33 символа (потому что берем до 6 символов контекста), закодированных эмбеддингами в 60, идут на слой в 100 нейронов, а с них обратно на 33 символа. Фигня какая-то, но по крайней мере понятно как это все работает на всех уровнях.

Читаем больше: Как изменилась структура потребления информации с 1980 по 2008 год | 2025-12-14T22:33:27

Интересное исследование попалось на глаза, аж 2009 года. Согласно ему, современный человек действительно читает значительно больше, чем в прошлом, хотя формат этого чтения изменился. Согласно ему, на 2008 год, среднестатистический амеканец потребляет около 100000 слов в день (примерно чертверть «Войны и мира») — это приблизительное количество слов, которые прошли через сознание за день (через уши или глаза), рассчитанное на основе хронометража активности. Это на 140% больше, чем в 1980 году.

Таким образом, вопреки мифу о деградации чтения, как минимум в 2008 мы обрабатывали в 2.4 раза больше текстовой информации, чем поколение наших родителей. Причем исследование учитывало только информацию, потребляемую вне работы (дома, в пути, на отдыхе) .

Структура чтения — если в 1960 году 26% слов приходило с бумаги, то к 2008 году эта доля упала до 9%. Однако цифровые носители (интернет, электронная почта, соцсети) не только компенсировали этот спад, но и утроили общее время чтения. Причина — интернет, так как это преимущественно текстовая среда (веб-серфинг, email)

Но интересно, что Интернет обеспечивает 25% потребляемых слов, но лишь 2% байтов (так как видео в интернете в 2008 году было низкого качества). То есть, они там прикинули информационный поток с разных каналов и перевели его в байты 🙂 Радио занимало 19% времени, но генерировало лишь 0,3% байтов (аудио требует мало данных). Голосовая связь (телефон) — это всего 5% слов и ничтожная доля байтов, но это единственный полностью интерактивный канал до эпохи интернета. ТВ оставалось на 2008 год главным источником информации по времени (41% всех часов) и количеству слов (45%), однако по объему данных (байтам) телевидение занимало только второе место (35%), уступая компьютерным играм.

Вот с играми интересно. Главная находка отчета: Игры генерируют (или генерировали в 2008) 55% всех «байтов», потребляемых домохозяйствами. При этом они занимают лишь 8% времени пользователя. Это довольно спорная штука в их отчете.

Те 100500 слов — это оценка реальных слов, которые человек либо прочитал, либо услышал. Это не метафорический «эквивалент», а попытка подсчитать именно вербальную информацию. Они взяли время потребления каждого медиа и умножили на среднюю скорость поступления слов для этого канала. Чтение (книги, газеты, интернет-тексты): 240 слов в минуту. Электронная почта и веб-серфинг — 240 слов в минуту. Телевидение (диалоги в шоу/фильмах): 153 слова в минуту. Радио: 80 слов в минуту (меньше, так как много пауз и музыки). Музыка: 41 слово в минуту (тексты песен).

Ссылка в комментах

Тоска по оригиналу: когда реставрации портят воспоминания | 2025-12-13T15:05:21

В советское время была хорошая школа анимации, на протяжении многих десятков лет она была ведущая в мире. Если сейчас набрать в youtube «Вовка в тридевятом царстве», то выдаются практически только реставрации 🤮 причем заодно выдаются такие же блевотные реставрации и кучи других мультиков, сделанные в том же духе (векторизацией, черные контуры). Если зайти на википедию, то там будет скриншот именно с реставрации, а не с оригинального мультика 1965 года. Оригинал можно найти например по запросу «вовка в тридевятом царстве мадина газиева», а вот по запросу «вовка в тридевятом царстве союзмультфильм 1965» не показывается он вообще.

Вообще поломали интернет.

P.S. Кстати, двое из ларца, исполняющие желания, и «так сойдет» очень резонирует с ChatGPT сегодняшнего дня 😉

Семь уровней чтения научных статей | 2025-12-10T19:38:53

Поскольку я периодически читаю научные статьи по своей теме, попробую сформулировать уровни постижения истины.

Уровень 0: «Папка «Read Later»» Скачал PDF, название звучит гениально, абстракт кажется решением всех моих проблем. Файл навсегда похоронен в папке ~/Downloads/Papers/ToRead.

Уровень 1: «Шумерская клинопись» Не понятно ни фига. Какие-то случайные значки, греческий алфавит закончился. «Ортогональная экстраполяция когнитивной энтропии в рамках квазистационарного дискурса неизбежно индуцирует бифуркацию трансцендентального синергизма». На таких материалах очень падает самооценка. Чаще всего, с этого уровня или падение на нулевой, или постепенно на 2-й.

Уровень 2: «Иллюзия компетентности» В Abstract всё понятно, Introduction читается как хороший детектив. Но как только начинается основной раздел, текст превращается в тыкву. Своими словами пересказать не могу, только общими фразами: «Ну, они там нейронку обучили… вроде».

Уровень 3: «Формулы где надо и где не надо» В Abstract всё понятно, первая половина статьи тоже норм (архитектура, картинки). Но потом идет формула (4), где происходит «магия». Я верю авторам на слово, что из уравнения (3) следует (4), потому что проверять это я, конечно же, не буду. Дальше — дикий ужас и вера в чудо.

Уровень 4: «Эффект золотой рыбки» Пока читаю — всё кристально понятно. Логика железная, выводы очевидны, авторы молодцы. Закрываю вкладку, меня спрашивают: «О чем статья?» — и я зависаю. В голове пустота. Если отнимите пейпер, я даже идею не воспроизведу. Потому что там по сути нет идеи, есть процесс.

Уровень 5: «Диванный эксперт» Всё понятно, могу пересказать суть за пивом. Знаю, что Input превращается в Output, но «черный ящик» внутри всё еще черный. Дай мне комп, воспроизвести не смогу даже скелетон, потому что оказывается, что в статье нет половины важных вещей.

Уровень 6: «Критик-практик» Все понятно, перескажу, понятно как воспроизвести (даже без их кода). Вижу, где они сжульничали. Точно знаю, что «state-of-the-art» результат получен только благодаря удачному сиду или датасету и вот этому странному трюку в препроцессинге, о котором упомянуто в сноске на 12-й странице.

Уровень 7: «Деконструктор» Ура, я все понял, и реализовал это сам. Оно работает хуже, чем в статье, но я знаю почему. Но понимаю эту работу лучше, чем второй соавтор (который просто графики строил). Я вижу, что вся эта сложная математика на 5 страниц сводится к двум параграфам в середине.

Уровень 8: «Нирвана» Статья тривиальна. Идея вторична, это всё было в 90-х у Шмидхубера, просто названо другими словами. Формулы переусложнены для важности. Я могу написать то же самое в 10 строк кода и это будет работать быстрее. Reject.

Если что — я завис где-то между 2 и 4.

	Rauf Aliev к записи Про магазины
	Rauf Aliev к записи Про магазины
	Михаил Едемский к записи Про магазины
	keht к записи Про магазины
	Vasiliy Bogin к записи Дневник Маши: 4-й класс Спринг…