Читаем больше: Как изменилась структура потребления информации с 1980 по 2008 год | 2025-12-14T22:33:27

Интересное исследование попалось на глаза, аж 2009 года. Согласно ему, современный человек действительно читает значительно больше, чем в прошлом, хотя формат этого чтения изменился. Согласно ему, на 2008 год, среднестатистический амеканец потребляет около 100000 слов в день (примерно чертверть «Войны и мира») — это приблизительное количество слов, которые прошли через сознание за день (через уши или глаза), рассчитанное на основе хронометража активности. Это на 140% больше, чем в 1980 году.

Таким образом, вопреки мифу о деградации чтения, как минимум в 2008 мы обрабатывали в 2.4 раза больше текстовой информации, чем поколение наших родителей. Причем исследование учитывало только информацию, потребляемую вне работы (дома, в пути, на отдыхе) .

Структура чтения — если в 1960 году 26% слов приходило с бумаги, то к 2008 году эта доля упала до 9%. Однако цифровые носители (интернет, электронная почта, соцсети) не только компенсировали этот спад, но и утроили общее время чтения. Причина — интернет, так как это преимущественно текстовая среда (веб-серфинг, email)

Но интересно, что Интернет обеспечивает 25% потребляемых слов, но лишь 2% байтов (так как видео в интернете в 2008 году было низкого качества). То есть, они там прикинули информационный поток с разных каналов и перевели его в байты 🙂 Радио занимало 19% времени, но генерировало лишь 0,3% байтов (аудио требует мало данных). Голосовая связь (телефон) — это всего 5% слов и ничтожная доля байтов, но это единственный полностью интерактивный канал до эпохи интернета. ТВ оставалось на 2008 год главным источником информации по времени (41% всех часов) и количеству слов (45%), однако по объему данных (байтам) телевидение занимало только второе место (35%), уступая компьютерным играм.

Вот с играми интересно. Главная находка отчета: Игры генерируют (или генерировали в 2008) 55% всех «байтов», потребляемых домохозяйствами. При этом они занимают лишь 8% времени пользователя. Это довольно спорная штука в их отчете.

Те 100500 слов — это оценка реальных слов, которые человек либо прочитал, либо услышал. Это не метафорический «эквивалент», а попытка подсчитать именно вербальную информацию. Они взяли время потребления каждого медиа и умножили на среднюю скорость поступления слов для этого канала. Чтение (книги, газеты, интернет-тексты): 240 слов в минуту. Электронная почта и веб-серфинг — 240 слов в минуту. Телевидение (диалоги в шоу/фильмах): 153 слова в минуту. Радио: 80 слов в минуту (меньше, так как много пауз и музыки). Музыка: 41 слово в минуту (тексты песен).

Ссылка в комментах

GPU против CPU: Революция в обработке данных | 2025-12-13T01:16:30

Мучаю свой суперкомпьютер. Иллюстрация того, что GPU — не только для машинного обучения и какой-то сложной математики.

Мой скрипт берет толстый словарь английского языка (Webster) и множит его 30 раз, получается список из 12 млн слов. Далее алгоритм просматривает все 12 млн слов и заменяет все гласные буквы на звездочки через regex. Далее чтобы добавить нагрузки, добавляется колонка «длина слова», и затем берем слова длиннее 10 букв и ищем самые частые (top5).

То есть, на питоне это

df[‘masked’] = df[‘text’].str.replace(r'[aeiou]’, ‘*’, regex=True)

df[‘len’] = df[‘masked’].str.len()

res = df[df[‘len’] > 10][‘masked’].value_counts().head(5)

и вот этот код выполняется сначала через основной процессор, а затем через GPU.

Основной процессор (у меня это топовый Intel i9 285k) выполняет эту задачу за 24 секунды, а Nvidia RTX 5090 — за 0.51 секунд. То есть, разница в 46 раз!

[Pandas CPU] Top Patterns:

masked

s*r w. sc*tt. 23280

s*r t. br*wn*. 23220

j*r. t*yl*r. 16140

bl*ckst*n*. 10860

b***. & fl. 10830

Name: count, dtype: int64

[Pandas CPU] Computation Time: 23.5596 sec.

Transferring data to GPU…

Transfer complete in 1.16s

— Running Benchmark: cuDF GPU —

[cuDF GPU] Top Patterns:

masked

s*r w. sc*tt. 23280

s*r t. br*wn*. 23220

j*r. t*yl*r. 16140

bl*ckst*n*. 10860

b***. & fl. 10830

Name: count, dtype: int64

[cuDF GPU] Computation Time: 0.5108 sec.

TOTAL SPEEDUP: 46.12x

Сериалы и вино: ностальгия по «Интерстеллару» | 2025-12-11T14:39:12

Как смотреть сериал «Чайки», когда кончилось вино и скучаешь по Интерстеллару

Семь уровней чтения научных статей | 2025-12-10T19:38:53

Поскольку я периодически читаю научные статьи по своей теме, попробую сформулировать уровни постижения истины.

Уровень 0: «Папка «Read Later»» Скачал PDF, название звучит гениально, абстракт кажется решением всех моих проблем. Файл навсегда похоронен в папке ~/Downloads/Papers/ToRead.

Уровень 1: «Шумерская клинопись» Не понятно ни фига. Какие-то случайные значки, греческий алфавит закончился. «Ортогональная экстраполяция когнитивной энтропии в рамках квазистационарного дискурса неизбежно индуцирует бифуркацию трансцендентального синергизма». На таких материалах очень падает самооценка. Чаще всего, с этого уровня или падение на нулевой, или постепенно на 2-й.

Уровень 2: «Иллюзия компетентности» В Abstract всё понятно, Introduction читается как хороший детектив. Но как только начинается основной раздел, текст превращается в тыкву. Своими словами пересказать не могу, только общими фразами: «Ну, они там нейронку обучили… вроде».

Уровень 3: «Формулы где надо и где не надо» В Abstract всё понятно, первая половина статьи тоже норм (архитектура, картинки). Но потом идет формула (4), где происходит «магия». Я верю авторам на слово, что из уравнения (3) следует (4), потому что проверять это я, конечно же, не буду. Дальше — дикий ужас и вера в чудо.

Уровень 4: «Эффект золотой рыбки» Пока читаю — всё кристально понятно. Логика железная, выводы очевидны, авторы молодцы. Закрываю вкладку, меня спрашивают: «О чем статья?» — и я зависаю. В голове пустота. Если отнимите пейпер, я даже идею не воспроизведу. Потому что там по сути нет идеи, есть процесс.

Уровень 5: «Диванный эксперт» Всё понятно, могу пересказать суть за пивом. Знаю, что Input превращается в Output, но «черный ящик» внутри всё еще черный. Дай мне комп, воспроизвести не смогу даже скелетон, потому что оказывается, что в статье нет половины важных вещей.

Уровень 6: «Критик-практик» Все понятно, перескажу, понятно как воспроизвести (даже без их кода). Вижу, где они сжульничали. Точно знаю, что «state-of-the-art» результат получен только благодаря удачному сиду или датасету и вот этому странному трюку в препроцессинге, о котором упомянуто в сноске на 12-й странице.

Уровень 7: «Деконструктор» Ура, я все понял, и реализовал это сам. Оно работает хуже, чем в статье, но я знаю почему. Но понимаю эту работу лучше, чем второй соавтор (который просто графики строил). Я вижу, что вся эта сложная математика на 5 страниц сводится к двум параграфам в середине.

Уровень 8: «Нирвана» Статья тривиальна. Идея вторична, это всё было в 90-х у Шмидхубера, просто названо другими словами. Формулы переусложнены для важности. Я могу написать то же самое в 10 строк кода и это будет работать быстрее. Reject.

Если что — я завис где-то между 2 и 4.

Сравнение учебных нагрузок: США vs СССР/Россия | 2025-12-10T17:35:36

К вопросу про образование в США и в СССР/России. Мой диплом в США эвалюирован как Master of Science degree in Computer Science. Мои коллеги помоложе говорят, что диплом российского вуза редко сейчас признается как Master, и часто даже на Bachelor тянет с трудом. Я решил посмотреть на цифры и очень удивился.

Для того, чтобы получить бакалавра в США, нужно потратить примерно 2000 часов в аудитории/лабораториях. Это в пересчете на кредиты дает 120 кредитов (credit hours). Один кредит — это обычно 1 час (50 минут) лекций в неделю в течение семестра (15 недель). Лабораторные работы имеют другой коэффициент (часто 2–3 часа в лаборатории считаются за 1 кредит), поэтому реальное количество часов в аудитории будет немного выше (ближе к 2000+).

Так вот, у меня в дипломе написано, что я потратил только на парах 7908 часов за пять лет. То есть, это в 4 раза больше, чем типичный студент в США. По цифрам выходит, что у меня только математика, физика, и английский подбираются к 2000 за пять лет, а всего предметов там 42 штуки.

Товарищ поделился, что в его дипломе бакалавра из России уже 3140 академчасов, что в два раза меньше. А поделитесь, сколько у вас в дипломе часов?

Год выпуска, универ, специальность и число часов? Интересно, насколько сильный разброс.

Терменвокс на сцене: Сплин ищет новые звуки | 2025-12-05T23:29:06

Терменвокс на концерте Сплина вчера. Оказалось, что этого на первый взгляд заимствованного слова на английском нет. Вместо него используется для названия этого музыкального инструмента theremin потому что родовая фамилия Льва Термена была с французскими корнями и спеллилась как Theremin. А вставили терменвокс в аранжировку неплохо, хотя и довольно простенько ростовский на нём играет, и сам терменвокс всего с одной антенной.

Вообще из музыкантов реально зажигал больше всех Мещеряков, барабанщик. Самый меланхоличный был гитарист, Вадим Сергеев. Он просто неподвижным взглядом смотрел в зал, почти не двигаясь, но очень чётко исполнял свою партию — видимо, профессионализм не пропьёшь.

Математические нотации: хаос под строгим порядком | 2025-12-02T15:30:20

Если вам кто-то говорит, что математика это точная наука — не верьте. Поскольку у меня сейчас хобби data science, я изучаю всякое разное из разных книжек и у меня взрывается мозг, как вообще может такое происходить в науке, где каждая мелочь должна укладываться в систему, иначе она идет лесом. Пока дело не доходит до нотаций. С ними там какой-то дикий бардак. Набор диалектов.

Взять, например, обычные логарифмы. «Стандарт» как обозначать логарифм зависит от того, в какой комнате университета вы находитесь. В матанализе и теории чисел log(x) почти всегда означает натуральный логарифм ln(x) база e. Производная от e^x равна e^x. Это «естественно». Писать ln им лень. Там, же где могут вылезти дясятичные логарифмы (computer science тот же), log(x) внезапно становится десятичным, а ln(x) — по основанию e.

Матожидание E имеет аргумент в квадратных скобках. При этом те же квадратные скобки в computer science используются для степ-фукции 0/1.

Или вот если вы видите вектор — это столбец или строка? В классической математике вектор — это всегда столбец. Чтобы умножить его на веса, мы пишем T после вектора и потом w для весов. Но во многих пейперов векторы мыслятся как строки. И если вы видите y = xW+b , то x — это не столбец, потому что иначе размерности не сойдутся. x тут — строка. но в следующей статье пишут Wx+b. И тут x — столбец 🙂

Угловые скобки . Для скалярного произведения (dot product) используется знак «⋅», но его плохо видно, особенно на доске, и я очень часто вижу, что математики используют угловые для dot product. Вообще по науке угловые используются для обобщенного (generalized) понятия inner product, где скалярное произведение частный случай. означает некий абстрактный способ перемножить a и b и получить число. Причем в квантовой механике это бы записывалось как . А еще для скалярного произведения некоторые используют кружок с точкой или x в кружочке.

Ну и для кучи еще в России тангенс — это tg, а в США — tan. А есть еще tan^-1 и arctan, что одно и то же, хотя x^-1 вообще означает 1/x

Википедия: когда сложность становится барьером | 2025-11-26T01:06:17

У википедии есть одна большая проблема. Ну или у нас с википедией. Если зайти на практически любую страницу википедии об относительно сложном математическом или физическом понятии, часто резко перестает хотеться ее дальше читать. Формально там все верно, но объяснение дается через концепции, часто еще более сложные, чем объясняемая. Кроме этого, там дается часто много лишнего — то, что формально/академически/таксономически находится внутри темы, но по сути «загрязняет» получение первого впечатления.

Эта проблема возникает потому, что у авторов Википедии (часто математиков) приоритет стоит на строгости и полноте, а не на дидактике и понятности.

В англоязычной среде такое иногда называют «Drift into pedantry» (скатывание в педантизм). Статьи часто пишутся экспертами для экспертов, а не для тех, кто пытается изучить предмет с нуля.

Вот возьмем, например, «тензор». Представьте студента, который слышал, что тензоры используются в машинном обучении (Google TensorFlow) или физике, и хочет понять суть.

Чего ждет читатель (интуиция): «Тензор — это таблица чисел (ну или какой-нибудь контейнер данных), которая описывает свойства объекта и правильно изменяется, если мы повернем систему координат»

Что дает википедия: «Те́нзор (от лат. tensus, «напряжённый», по классической раскладке механического напряжения на гранях деформируемого куба, см.иллюстрацию) — раскладка (расположение в пространстве) чисел (компонент), применяемая в математике и физике как особый тип многоиндексного объекта, обладающего математическими свойствами.» Статья сразу же начинает перечислять ранги, ковариантность и контравариантность индексов. Это формально верно, но это «загрязняет» первое впечатление.

Иллюстрация в самом верху подписана вот так: «Механическое напряжение, деформирующее куб с гранями, перпендикулярными осям координат, в классической теории упругости описывается тензором напряжений Коши (англ. Cauchy stress tensor), который связывает 2 индекса: вектор нормали к грани с вектором напряжения Т (сила на единицу площади); имеются 3 направления нормалей и 3 направления компонент напряжения, что даёт тензор 2-го ранга 3×3 — из 9 компонент.»

Формально — ни одной ошибки. Фактически — это стена текста, которая требует знания линейной алгебры, чтобы просто прочитать определение.

Это как если бы вы спросили «Что такое яблоко?», а вам ответили: «Яблоко — это плод растений подсемейства Сливовые (Amygdaloideae) или Спирейные, обладающий эпикарпием, мезокарпием и эндокарпием, часто участвующий в гравитационных экспериментах Ньютона».

С одной стороны, кажется, что с появлением LLM википедия как бы больше не необходима. Есть же условно LLMы типа ChatGPT, которые по сути пересказывают все то, что есть в wikipedia в нужном виде. Но они так делают, потому что их обучили на википедии, причем наверняка именно википедии дали сильно больше веса при обучении, чем всякому шлаку в интернете. Если бы не было википедии в обучающем сете, все было бы сильно сложнее. При этом википедия постоянно редактируется, и LLM и Google используют именно ее при ответах на вопросы.

Поэтому, с одной стороны, мне кажется, что википедии давно пора переходить на генерацию на основе курируемых экспертами данных и упаковывать знания в требуемом формате, например, в виде вопросов-ответов. С другой, теряется вся идея мастер-данных энциклопедии для LLM/RAG.

Парадокс в том, что LLM — это, по сути, единственный «интерфейс», который смог прочитать эти педантичные определения Википедии, «понять» их (через тысячи примеров кода и статей) и перевести обратно на человеческий язык. Википедия стала отличной базой данных для роботов, но плохим учебником для людей.

Механизмы старого телефона: удивительная простота и гениальность | 2025-11-25T00:59:46

Когда я был маленький, я много раз разбирал старые телефоны, и вот только сейчас, к седым годам понял, что никогда не задавался вопросом, как они работали. А работало все очень интересно.

Начнем с номеронабирателя. Телефон подключен к сети двумя проводами. Номеронабиратель — дисковый. Когда вы взводите диск, контакты блокируются, а когда отпускаете — диск возвращается назад и выдает в линию серию прерываний/импульсов. Но как сделали так, чтобы он возвращался с постоянной скоростью (это 10 импульсов в секунду)?

Он работал на основе центробежного фрикционного регулятора. Механика (редуктор) разгоняла ось регулятора до тысяч оборотов в минуту. На оси сидели два грузика с фрикционными накладками (считай тормозами). Центробежная сила прижимала их к неподвижному барабану, создавая тормозное усилие. Это прямой наследник центробежного регулятора Уатта, позволявший механизму работать стабильно независимо от того, как резко вы отпустили диск.

Далее. АТС соединила вас с другом. Вы говорите одновременно, и звук передается и туда, и оттуда по двум проводам — почему двух, а не четыре понятно? Ну хорошо, а вот почему вы не слышите сами себя слишком громко, ведь микрофон шлет звук туда же, откуда его слышит «динамик»?

Я вот быстро ответить не смог. Пошел гуглить. Так вот, оказывается, за это отвечал специальный дифференциальный трансформатор. Там ток от микрофона разветвляется: часть идет в линию к другу, а часть — в «балансный контур» (цепочку из резистора и конденсатора внутри телефона), имитирующую сопротивление линии. Обмотки трансформатора намотаны встречно: магнитные потоки от тока в линию и тока в балансный контур взаимно уничтожаются в той обмотке, что идет к динамику. Инженеры специально настраивали баланс не идеально, оставляя «местный эффект» — тихий звук собственного голоса, чтобы телефон не казался «мертвым». А вот входящий сигнал от друга разбалансировать нечем (с вашей стороны тишина), поэтому он свободно проходит на динамик.

Теперь про микрофон. В то время транзисторов в телефонах не было, но сигнал был громким. Секрет — в конструкции микрофона, он — угольный. По сути, это коробочка с угольным порошком и подвижной мембраной. Звук изо рта сжимает и разжимает порошок, меняя его сопротивление. Микрофон не генерирует ток, а модулирует мощный ток, идущий от АТС. По сути, он работал как усилитель. Со временем уголь слеживался, и слышимость падала — отсюда была привычка стучать трубкой, чтобы «встряхнуть» порошок.

А вот динамик был нормальный, электромагнитный. Хотя не совсем. Если бы внутри был просто электромагнит (без постоянного магнита), телефон бы безбожно искажал голос. Электромагнит притягивает железо независимо от полярности тока. Если подать синусоиду (голос), то мембрана притягивалась бы и на положительной полуволне, и на отрицательной. Результат: частота звука удвоилась бы, и вы слышали бы не голос друга, а непонятное высокочастотное жужжание. Постоянный магнит решает эту проблему: Он создает «преднатяг». Мембрана всегда притянута к магниту со средней силой. Когда приходит «плюс» сигнала, магнитное поле усиливается и мембрана прогибается сильнее. Когда приходит «минус» сигнала, поле ослабевает и мембрана отпружинивает назад.

Сейчас в современном динамике сила строго зависит от направления тока. Плюс толкает, минус тянет. Поэтому «удвоения частоты», которого боялись инженеры старых телефонов, здесь физически возникнуть не может. Мембране не нужен «преднатяг» магнитом, ей нужно просто висеть в покое.

Интересно, что принцип старых электромагнитных капсюлей (мембрана из металла + «якорь») используется сейчас в самых дорогих внутриканальных наушниках — гуглите «арматурные наушники» (цена там 500 баксов где-то).

Напряжение в телефонной сети было отрицательное — минус 48/60 вольт. Плюс заземлен, а «живой» провод — это минус. Зачем? Оказывается, это защита от электрохимической коррозии. Кабели лежат в сырой земле. Если бы на жиле был «плюс» (анод), при повреждении изоляции медь растворялась бы (электролиз) и кабель сгнивал. С «минусом» (катод) ионы металла, наоборот, стремятся осесть на провод из почвы, что продлевало жизнь кабеля на десятилетия.

Интерактивное обучение 1986: «Химический тренажер» | 2025-11-23T15:55:06

У меня дома в Коломне есть книжка Химический тренажер 1986 года. Я таких никогда не до и не после не видел.

Материал каждой из 54 программ подразделяется на множество мелких, очень коротких частей, или рубрик. В конце каждой рубрики задается один или несколько вопросов. Это делается с целью проверить – действительно ли понято содержание данной рубрики. У каждого ответа есть место в книге, куда нужно перепрыгнуть, чтобы почитать, правильный ли ответ. Если ответ неправильный, там описывается, почему и задается новый вопрос. Если правильный — продвигаешься в этом квесте дальше.

Эти немцы в 1986 году сделали интерактивный учебник еще до того, как это стало модным.