Как смотреть сериал «Чайки», когда кончилось вино и скучаешь по Интерстеллару

Как смотреть сериал «Чайки», когда кончилось вино и скучаешь по Интерстеллару

Поскольку я периодически читаю научные статьи по своей теме, попробую сформулировать уровни постижения истины.
Уровень 0: «Папка «Read Later»» Скачал PDF, название звучит гениально, абстракт кажется решением всех моих проблем. Файл навсегда похоронен в папке ~/Downloads/Papers/ToRead.
Уровень 1: «Шумерская клинопись» Не понятно ни фига. Какие-то случайные значки, греческий алфавит закончился. «Ортогональная экстраполяция когнитивной энтропии в рамках квазистационарного дискурса неизбежно индуцирует бифуркацию трансцендентального синергизма». На таких материалах очень падает самооценка. Чаще всего, с этого уровня или падение на нулевой, или постепенно на 2-й.
Уровень 2: «Иллюзия компетентности» В Abstract всё понятно, Introduction читается как хороший детектив. Но как только начинается основной раздел, текст превращается в тыкву. Своими словами пересказать не могу, только общими фразами: «Ну, они там нейронку обучили… вроде».
Уровень 3: «Формулы где надо и где не надо» В Abstract всё понятно, первая половина статьи тоже норм (архитектура, картинки). Но потом идет формула (4), где происходит «магия». Я верю авторам на слово, что из уравнения (3) следует (4), потому что проверять это я, конечно же, не буду. Дальше — дикий ужас и вера в чудо.
Уровень 4: «Эффект золотой рыбки» Пока читаю — всё кристально понятно. Логика железная, выводы очевидны, авторы молодцы. Закрываю вкладку, меня спрашивают: «О чем статья?» — и я зависаю. В голове пустота. Если отнимите пейпер, я даже идею не воспроизведу. Потому что там по сути нет идеи, есть процесс.
Уровень 5: «Диванный эксперт» Всё понятно, могу пересказать суть за пивом. Знаю, что Input превращается в Output, но «черный ящик» внутри всё еще черный. Дай мне комп, воспроизвести не смогу даже скелетон, потому что оказывается, что в статье нет половины важных вещей.
Уровень 6: «Критик-практик» Все понятно, перескажу, понятно как воспроизвести (даже без их кода). Вижу, где они сжульничали. Точно знаю, что «state-of-the-art» результат получен только благодаря удачному сиду или датасету и вот этому странному трюку в препроцессинге, о котором упомянуто в сноске на 12-й странице.
Уровень 7: «Деконструктор» Ура, я все понял, и реализовал это сам. Оно работает хуже, чем в статье, но я знаю почему. Но понимаю эту работу лучше, чем второй соавтор (который просто графики строил). Я вижу, что вся эта сложная математика на 5 страниц сводится к двум параграфам в середине.
Уровень 8: «Нирвана» Статья тривиальна. Идея вторична, это всё было в 90-х у Шмидхубера, просто названо другими словами. Формулы переусложнены для важности. Я могу написать то же самое в 10 строк кода и это будет работать быстрее. Reject.
Если что — я завис где-то между 2 и 4.
2003 год. У нас был чат, мое детище, Starchat.ru, где постоянно тусил народ и друг с другом общался. Там был джава-апплет! Никто сейчас и не помнит что это такое, наверное. Изначально писал эту штуку какой-то программист, которого я нашёл на просторах интернета, который потом пропал, и поддерживал уже я.
Ради гыгы сделал бота, с которым можно было пообщаться, просто кинув ему личное сообщение. Он постоянно висел в онлайне, и не все еще понимали, что это бот. Когда робот получал сообщение, он искал в огромных чат-логах сообщения, содержащие максимум слов из запроса, и при этом имеющие какой-то ответ. Ответом называется следующее сообщение, направленное пользователю кем-то (типа «Вася: да иди ты знаешь куда!» является ответом на сообщение Васи). Там в интерфейсе чата надо было кликнуть на сообщение, а потом на него отвечать. При наличии нескольких вариантов (а всегда было несколько вариантов, трафик болтающих большой), выбирался случайный.
Получился такой робот, который очень забавно отвечает на вопросы. Если его спросить, как его зовут, он всегда будет отвечать разными именами, но отвечать в тему, со смайликами и приписками, часто матерясь. Также бот всегда давал адекватные ответы на стандартные вопросы вида «где живешь» или «сколько лет». Поскольку история накопилась огромная, и говорили там о всем вообще, было сложно найти вопрос, на который система не давала интересный/правильный/забавный ответ.
Так вот, у бота был интересный сайд-эффект. Если начать на него обидно материться, он начинает материться взад еще более обидно. Ну и вообще часто неадекватно реагирует на наезды и упреки. Ну просто потому, что в реальных диалогах на вежливый вопрос отвечают вежливо, а на невежливый — разумеется, грубо. Аудитория там с этим ботом очень развлекалась.
Особенно было интересно читать логи самого бота потом. Там же народ не понимал, что это робот. Его что-то спрашивали, с ним ругались и мирились. Было весело)

Вспомнили Сплина! Первый концерт, на который я купил билеты за год;)
Видимо, рекламу chatgpt сам и делал и размещал (висит в месте, где, кажется , вообще никто не ходит)

У википедии есть одна большая проблема. Ну или у нас с википедией. Если зайти на практически любую страницу википедии об относительно сложном математическом или физическом понятии, часто резко перестает хотеться ее дальше читать. Формально там все верно, но объяснение дается через концепции, часто еще более сложные, чем объясняемая. Кроме этого, там дается часто много лишнего — то, что формально/академически/таксономически находится внутри темы, но по сути «загрязняет» получение первого впечатления.
Эта проблема возникает потому, что у авторов Википедии (часто математиков) приоритет стоит на строгости и полноте, а не на дидактике и понятности.
В англоязычной среде такое иногда называют «Drift into pedantry» (скатывание в педантизм). Статьи часто пишутся экспертами для экспертов, а не для тех, кто пытается изучить предмет с нуля.
Вот возьмем, например, «тензор». Представьте студента, который слышал, что тензоры используются в машинном обучении (Google TensorFlow) или физике, и хочет понять суть.
Чего ждет читатель (интуиция): «Тензор — это таблица чисел (ну или какой-нибудь контейнер данных), которая описывает свойства объекта и правильно изменяется, если мы повернем систему координат»
Что дает википедия: «Те́нзор (от лат. tensus, «напряжённый», по классической раскладке механического напряжения на гранях деформируемого куба, см.иллюстрацию) — раскладка (расположение в пространстве) чисел (компонент), применяемая в математике и физике как особый тип многоиндексного объекта, обладающего математическими свойствами.» Статья сразу же начинает перечислять ранги, ковариантность и контравариантность индексов. Это формально верно, но это «загрязняет» первое впечатление.
Иллюстрация в самом верху подписана вот так: «Механическое напряжение, деформирующее куб с гранями, перпендикулярными осям координат, в классической теории упругости описывается тензором напряжений Коши (англ. Cauchy stress tensor), который связывает 2 индекса: вектор нормали к грани с вектором напряжения Т (сила на единицу площади); имеются 3 направления нормалей и 3 направления компонент напряжения, что даёт тензор 2-го ранга 3×3 — из 9 компонент.»
Формально — ни одной ошибки. Фактически — это стена текста, которая требует знания линейной алгебры, чтобы просто прочитать определение.
Это как если бы вы спросили «Что такое яблоко?», а вам ответили: «Яблоко — это плод растений подсемейства Сливовые (Amygdaloideae) или Спирейные, обладающий эпикарпием, мезокарпием и эндокарпием, часто участвующий в гравитационных экспериментах Ньютона».
С одной стороны, кажется, что с появлением LLM википедия как бы больше не необходима. Есть же условно LLMы типа ChatGPT, которые по сути пересказывают все то, что есть в wikipedia в нужном виде. Но они так делают, потому что их обучили на википедии, причем наверняка именно википедии дали сильно больше веса при обучении, чем всякому шлаку в интернете. Если бы не было википедии в обучающем сете, все было бы сильно сложнее. При этом википедия постоянно редактируется, и LLM и Google используют именно ее при ответах на вопросы.
Поэтому, с одной стороны, мне кажется, что википедии давно пора переходить на генерацию на основе курируемых экспертами данных и упаковывать знания в требуемом формате, например, в виде вопросов-ответов. С другой, теряется вся идея мастер-данных энциклопедии для LLM/RAG.
Парадокс в том, что LLM — это, по сути, единственный «интерфейс», который смог прочитать эти педантичные определения Википедии, «понять» их (через тысячи примеров кода и статей) и перевести обратно на человеческий язык. Википедия стала отличной базой данных для роботов, но плохим учебником для людей.
Майями — что там делать? Завтра улетаем на 3 дня — Надя, Лиза, я. Понакидайте что там стоит посетить. И если вдруг есть общие друзья из Маями, потегайте, плз, вдруг что посоветуют интересного. А то, честно говоря, у меня только один музей там в списке «точно надо посетить» (Perez), а все остальное какое-то мутное.
Ресторан очень вкусный, но все чаще вижу, что заведения удерживают в чеке некий процент сверх цен из меню. В этом меню стоимость тарелки указана как ю 30 долл за тарелку, плюс вот такое примечание. В данном случае это 4% operational charge. На это сверху ещё налоги, от ещё процентов 20 чаевых. В итоге 30 долл из меню превращаются в минимум 40.

Вчера заехали в Comcast/XFinity подключить Лизу в ее новой квартире. В конце спрашиваю «ребята, а можете посмотреть, что-то мне кажется, я уже два года как-то дохрена плачу за интернет. 131 бакс в месяц за гигабитное подключение. Чувак быстро вытягивает мой профиль, говорит, давайте сделаю вам на 25 баксов меньше. Давайте, говорю. Сделал, до свидания.
Сервис.
Это у меня примерно десятая постановка Le Nozze di Figaro. И какой раз не могу понять, почему никогда ни у кого не доходят руки сделать современные, нормально сложенные субтитры, а не продукт какого-то доисторического «гуглтранслейта». Буквально каждая реплика переведена с итальянского таким диким образом, что кровь из глаз вот-вот пойдёт. Главное, непонятно зачем. На итальянском там тоже, конечно, далеко не современно, но уж взялись переводить, так переводите так, чтобы смысл угадывался за те десятки миллисекунд, когда прыгаешь глазами на движение на экранчике. А сейчас там попадаешь ими на текст, который надо минуту пережевывать… Every woman makes me change colour… Вместо make me blush или make me pale … If you are fain to dance… И вот все такое
