Я думал такое только на автобусах пишут, которые в депо поехали

Я думал такое только на автобусах пишут, которые в депо поехали

Гуляем с Юки. Он очень нравится лисам. Они всегда его долго разглядывают. Видео в комментариях


Попов воскрес!

Интересно, а существует такой агент, который получает на вход таблицу (эксель), по размерам значительно превосходящую контекстное окно, и начинает ее документировать по сути. Вот есть несколько вкладок. Вот есть на вкладке 5 табличка в миллион строк и пять столбцов. Столбцы такие-то. Берем случайные данные из таблички, так, там вроде числа, а там — фамилии. Делаем предположение, что числа там везде — пишем код, который проверяет это предположение и заодно вычисляет мин/макс и набор уникальных значений. Так, значений немного, всего пять. Запишем. Проверяем теперь фамилии. Да, это просто строки, новый сэмплинг показал, что там фамилии правда. Тут формула. Смотрим куда она указывает. И т.д. А вот эта колонка — неясного назначения. Смотрим на данные — это какие-то числа от 0 до 1. Померяем среднее и разброс. Спросим у пользователя — может, даст какие комменты. Дал. Окалось это выданный kpi этого юзера из внешней системы. Запишем. И так далее. Получается документация. Дальше, когда есть документация, можно просить сделать какие-то операции со всем этим, поскольку LLM уже понимает плюс-минус назначение данных, и их связь, и может строить какие-то гипотезы на выявление outliers и их проверять.
Почти в каждом проекте разработки есть выделенная команда автоматизации функционального тестирования, однако на удивление редко встречается аналогичный акцент на Data Quality. Неважно, идут ли данные из внешних интеграций, от пользователей или генерируются самой системой, часто они остаются без должного контроля просто потому, что почему-то никто не считает это важным, а потом борятся с последствиями — они накапливаются как снежный ком. Чем дольше длятся такие проблемы, тем труднее их устранить, что в итоге приводит к ситуации, когда народ просто смиряется с «непоправимым» состоянием базы. Уж насколько лучше выявлять эти проблемы в момент их возникновения, пока технический долг не стал непреодолимым, чем потом решать, как сделать так, чтобы из-за них ничего не падало;
По сути, надо внедрять постоянного «надсмотрщика» над базами данных всех типов, использующихся системой (реляционных, NoSQL, поисковых индексов или графовых БД) — по сути, это слой проверки качества данных поверх процессов. Конечно, должны быть четкие правила — что именно проверять и какими флагами отмечать конкретные аномалии.
Должен быть ответственный за процесс (кожаный мешок, не AI), который будет интегрировать эти отчеты в рабочие процессы разработки и поддержки. Многие проблемы целостности данных невозможно решить просто через интерфейс — они требуют от инженерной команды разработки скриптов для массового исправления и очистки данных.
Тут кстати еще переходит все в область детектирования аномалий (outlier detection). Машинное обучение и LLM для выявления тонких «плохих» паттернов, которые традиционные системы на основе правил могут пропустить.
Что вы об этом думаете? Внедрены ли подобные механизмы в ваши процессы?

Сходили вчера на Project Hail Mary. Честно говоря, совсем не понравилось ни мне, ни Наде. Может, мы просто выросли из возраста, кому такие кино нравятся. Комикс-стайл. Сам инопланетянин, на мой взгляд, появился из экономии. Мне кажется, уровень начала 2000-х годов — тогда можно было бы сделать вот точно тоже самое. Тот же фильм Прибытие вспомните, где пыталить сделать что-то придумать необычное. Ну правда, это каменое уродство стоило 200М? Весь сюжет полон условностей и банальностей. За минуту они сделали так, что человек и инопланетянин начали прекрасно друг друга понимать с помощью какой-то программы, которую учитель естествознания создал за день. Мол, пусть астронавт и кусок камня сразу начинают болтать как приятели.. 5 километров железной цепи толщиной в указательный палец это где-то 10 тонн металла … это у них на корабле было столько?
Режиссеры стали успешными на поприще мультфильмов Лего-фильм и Осадки в виде фрикаделек, парой комедийных сериалов и Мачо и ботан. Я ожидал фильма в духе Интерстеллара или Марсианина, умного взрослого sci-fi, который не боится научных деталей, а получил детскую сказку с некрасивым инопланетянином.
Погуглил, оказалось, что прям до фига народу в восторге от этого, и кассу собирает.. Вероятно, люди соскучились по такому среди постиронии, сатиры, повесточек разных, Лантимоса и «Битвы за битвой». В детстве все смотрели «Полет навигатора» и «Короткое замыкание», ну вот взрослые ностальгируют по простому добру. Возможно, что это просто такой семейный фильм, для просмотра с детьми. Тогда может и норм.
ну ок, возвращаемся к просмотру второго сезона Succession. Он значительно лучше.

Очень вкусный иранский ресторан. Возможно, вы не знали, но есть два флага Ирана. Этот — исторический флаг, использовали до исламской революции 1979, и сегодня в самом Иране его использование — политическое преступление. Основное отличие от официального — эмблема льва и солнца. Поэтому когда иранские протестующие в Вашингтоне устраивают демонстрации, стоит посмотреть, какие флаги они несут. Если четыре полумесяца и меч посредине — то это протестующие из другого лагеря 😉

Сломался очиститель воздуха, купил такой же б/у с новым картриджем по цене стоимость сменного картриджа+40 долл. Старый полностью разобрал, заодно извлек компоненты, которые можно переиспользовать, и понял, как оно работает. Прям как в школе 🙂
В общем, внутри:
— контроллер на ESP32-WROOM-32D. Но на плате сгорела часть, отвечающая за напряжения, поэтому в помойку.
— газовый (CO) сенсор MQ-7 (к сожалению, впаянный в плату, но можно выпаять). Правда, для корректной работы нужен цикл нагрева. Сначала 5В (60 сек) для очистки сенсора, затем 1.5В (90 сек) для измерения. Но тоже можно использовать где-нибудь.
— Plantower PMS9103M — высокоточный лазерный датчик концентрации взвешенных частиц в воздухе (PM1.0, PM2.5, PM10). Можно подключить к Arduino, есть специифкация.
— микроволновый датчик движения (радар), модель RCWL-0516. Можно подключить к Arduino, очень простой по интерфейсу. Видит на 5-7 метров вокруг себя 360 градусов.
— 200W мотор Snowfan YY225H310B. Подключить тоже довольно просто, только там напряжение 310V DC плюс 15V управляющее оборотами. Но зато больше ничего нет.
— датчик Холла (магнит)
Самое ценное — мотор. На eBay он стоит 100 долл. Правда, надо бы и его проверить сначала, не сгорел ли он.

Интересно, что если взять 8000 книг из библиотеки Гутенберга, и по каждой построить по словам граф, чтобы посмотреть, насколько «дружны» слова — если слово А часто встречается с Б, а Б с В, то как часто А встречается с В — для этого есть метрика — средний коэфициент кластеризации, а затем просто отсортировать книги по уменьшению этого коэфициента, то процентов 70 топа будут составлять религиозные книги — библии, книга мормонов, Коран. Ну хорошо, часть из них являются дубликатами в каком-то смысле, потому что Библия в разных вариантах остается Библией. Но тут явно сгруппированы ее разные части, то есть, они явно имеют общность в этих треугольных словах.
Но что объединяет вообще все книги этого топа — это то, что они написаны много лет назад или, как в случае The Night Land, написаны относительно недавно в том же стиле, как много лет назад.
Кстати, среди этих книг светится An Introductorie for to Lerne to Read, To Pronounce, and to Speke French Trewly. Это учебник по французскому языку, написанный на английском языке времен Тюдоров (примерно 1530-е годы). Soverayn lorde kyng Henry the Eight. Написал его Жиль дю Гез (Gilles Du Guez) — учитель французского языка при английском дворе. Этот конкретный учебник был составлен для принцессы Марии (будущей королевы Марии I, известной как «Кровавая Мэри»), дочери Генриха VIII. Зацените страничку из учебника. Очень прикольный английский 🙂 …ye must pronounce it letyng your lippes jointe close, so that there be but a lyttell hole in the middes.
Так вот, я вчитался в этот учебник. Там упоминается фрукт под названием «openarses». Как вы понимаете, это «открытые задницы» по-английски. Так в тюдоровской Англии называли мушмулу (medlar). Если вы погуглите, как выглядит мушмула, у вас не будет вопросов почему это openarses 😉
В анатомическом разделе (MEMBRES LONGYNG TO MANNES BODY) автор рядом с глазами и ушами упоминает «the nether beerde» (дословно — «нижняя борода»).

