Отличная же идея. Мимо меня проехала коляска, довезла пассажира, возвращается на базу.
Метка: AI
Секреты аэропортных сканеров: как технология распознает содержимое вашей сумки | 2025-09-02T20:29:43
Послезавтра лечу в Амстердам (а потом в Турцию), и вспомнил, что у меня остался неотвеченным вопрос самому к себе про то, как работают сканеры сумок в аэропорту. Ну конечно я знал, что это по сути компьютерная томография, рентгеновские лучи и все такое, но хотелось больше деталей. И ниже ответ, почему они просят вытаскивать воду, и почему иногда не просят.
Оказалось, что современные сканеры могут не просто видеть форму предметов, но и определять, из какого материала они сделаны. Обычный сканер как работает? Плотные материалы (например, металл) поглощают много излучения и на изображении выглядят светлыми или непрозрачными. Менее плотные материалы поглощают мало излучения и выглядят темными. И потому ноутбуки, например, приходилось вынимать — и не потому, что сканер не мог их распознать, а потому, что их плотные компоненты (аккумулятор, платы) могли быть использованы для того, чтобы спрятать за ними другие запрещенные предметы. Ну и поэтому давно уже там не просто сканеры, а компьютерная томография — по сути, сумка или чемодан сканируется со всех сторон, дальше создается 3D-изображение. Это вроде все знают.
Но я упомянул, что они понимают из каких материалов сделано. Как?
Оказывается, что сканер использует технологию двухэнергетического рентгена. Он просвечивает объект двумя пучками лучей разной энергии (высокой и низкой). Поскольку материалы по-разному поглощают излучение в зависимости от энергии луча и своего атомного состава, система анализирует эту разницу. По соотношению поглощения двух пучков вычисляется эффективный атомный номер Z — ключевая характеристика, своего рода «элементный отпечаток» вещества.
Проблема в том, что этот «отпечаток» у воды (~7.4) и многих взрывчатых веществ практически идентичен. Именно поэтому воду забанили. Опираться только на этот параметр — значит получать огромное количество ложных срабатываний.
Здесь в игру вступает компьютерная томография (КТ). Сканер создает точную трехмерную (3D) модель содержимого сумки. Из 3D-модели система получает точный объем (V) каждого объекта. На основе данных о поглощении рентгеновских лучей вычисляется его масса (m). Далее все просто: ρ=m/V.
То есть, система не принимает решение на основе одного параметра. Она строит для каждого обнаруженного вещества точку на двумерном графике с осями «Z — плотность». На этом графике вода и взрывчатка, имея почти одинаковый атомный номер, занимают совершенно разные положения из-за различной плотности.
И именно потому иногда воду можно провозить. Умные машины просто ее не помечают как нечто важное, но все-таки помечают как воду. А дальше вступают процедуры. Если в аэропорту машины обновили, а процедуры — нет, то воду попросят вылить. Но и машины много где не обновили, причем в одном и том же аэропорту это зависит от открытой в данный момент линии.
Цена такого сканера — 300-400 тысяч долларов.
А сканеры для людей работают иначе. Там миллиметровые волны. Они проходят сквозь одежду и отражаются обратно от кожи. Вода их сильно поглощает, поэтому они проникают на пару миллиметров. Система регистрирует отражённый сигнал и строит трёхмерную карту поверхности тела и объектов под одеждой. Но ее не показывает — вместо этого показывает упрощенный контур человечка и показывает на нем то, что ML нашел необычного. Поэтому, кстати, многие пытаются провозить всякое внутри себя, так как знают, что для такого сканера это абсолютно невидимо.

Ирония трекинга: кольцо, питающееся вашей энергией | 2025-08-20T20:01:08
Только купил Oura Ring 4, как фейсбук начал крутить скам-рекламу про первое кольцо, которое отбирает у тебя энергию для своего выживания. Мооя прееллесть!..

Борьба с искусственным интеллектом в изучении языков | 2025-08-19T23:43:35
Мне сегодня грок взорвал мозг. Говорю поучи меня французскому. Он: ок, как будет «книга»? Я говорю «лё ливр». Он говорит «неправильно! ля ливра». 😳Машина все равно сама едет, решил записать диалог. Не убеждается. Никак, стоит на своём. Ля ливра и всё. Боюсь, Грок так плохому научит в своём Language Tutor mode.
Вспомнилась история из «Воспоминание о Пушкине” М. Е. Юзефовича, относящееся к 1829 году:
«<Во время похода на Эрзерум> с ним было несколько книг, в том числе и Шекспир. Однажды он в нашей палатке переводил брату и мне некоторые из его сцен. Я когда-то учился английскому языку, но, недоучившись как следует, забыл его впоследствии. Однакож все-таки мне остались знакомы его звуки. В чтении же Пушкина английское произношение было до того уродливо, что я заподозрил его знание и решил подвергнуть его экспертизе. Для этого на другой день я зазвал к себе его родственника, Захара Чернышева, знавшего английский язык, как свой родной, и, предупредив его в чем было дело, позвал к себе и Пушкина с Шекспиром. Он охотно принялся переводить его нам. Чернышев при первых же словах, прочитанных Пушкиным, расхохотался: “Ты скажи прежде, на каком языке читаешь?” Расхохотался в свою очередь и Пушкин, объяснив, что он выучился по-английски самоучкой, а потому читает английскую грамоту, как латинскую. Но дело в том, что Чернышев нашел перевод совершенно правильным и понимание языка безукоризненным».
Anna Derevenitskaya
AI Search Agent: Революция в автоматизированном поиске и покупках | 2025-08-19T01:21:54
В дополнение к основному продукту для тестирования поиска я разрабатываю на досуге AI Search Agent. Вы даёте ей всего две вводные: сайт, на который нужно перейти, и цель (описанную в коротком абзаце). То есть, эта штука достаточно умная, чтобы совсем не требовать настройки — сайт и цель, а дальше типа я сама.
Как работает: Этот виртуальный агент сам генерирует поисковые запросы, перерабатывает их в зависимости от полученных результатов (например, упрощает), и анализирует, насколько они соответствуют заданному намерению. Если подходящие результаты найдены, агент может добавить товар в корзину и оформить заказ — если это предусмотрено в настройках.
Я об этом уже писал недавно — сегодня просто чуть более найс демо. Будет еще более найс, пока это вытащено из середины разработки, но уже видно, как анализируется страница и есть первые результаты, которые можно использовать.
Агент может использоваться для нескольких целей. Во-первых, это отличный способ создать ground truth — набор запросов с идеальными результатами. Эти данные потом можно применять для тестирования поиска без привлечения часто медленных и дорогих больших языковых моделей (LLM). Во-вторых, он помогает проверить поисковые функции перед запуском для пользователей. В-третьих, агент генерирует реалистичные данные использования, которые нужны для обучения моделей рекомендаций, требующих аутентичных взаимодействий.
Те цветные прямоугольники на видео — это язык взаимодействия агента с ИИ (или LLM). Чтобы понять, куда кликать, система размечает страницу и отправляет ИИ структурированное описание страницы — часто вместе со скриншотом, — чтобы он мог всё проанализировать и принять решение о следующем действии.
Виртуальный покупатель: Тестируем интернет-магазин на автопилоте | 2025-08-15T04:27:07
В рамках проекта TestMySearch.com я делаю систему «виртуальный покупатель», которая имитирует поведение реального пользователя в интернет-магазине: она начинает с абстрактной цели (например, «что-то яркое и сексуальное для спортзала»), превращает её в конкретный поисковый запрос, выполняет поиск на сайте и в зависимости от результата может либо продолжить просмотр, либо с определённой вероятностью переформулировать запрос, если найденное не соответствует исходной цели; далее система оценивает страницы по соответствию именно изначальной задумке, открывает карточки товаров, случайным образом меняет параметры вроде цвета или размера, принимает решение о добавлении в корзину и оформлении заказа, а также может покинуть сайт, что позволяет за одну ночь сгенерировать множество сессий, похожих на реальные, для тестирования поиска, фильтров и рекомендаций ещё до прихода живых пользователей.
Система полностью автоматическая. То есть, браузер на видео открывается сам, поле поиска там находится само (то есть, от сайта это не зависит), в него вбивается текст, который система придумывает сама на основе той самой изначальной цели, дальше выдаются фасеты и результаты поиска, которые тоже могут быть в совсем непредсказуемом для системы виде — но она все равно понимает где что, и принимает решение о том, перефразировать запрос, выбрать ли фасет или нажать на результат поиска. С какой-то вероятностью виртуальный пользователь покидает сайт. Если запрос перефразируется, например, то этот виртуальный пользователь не повторяет запросы, которые уже приводили к пустым или нерелеватным результатам, то есть, в пределах сессии есть «память».
Стратегия ценообразования: иллюзия выбора | 2025-08-09T13:06:47
Интересный маркетинговый прием: за одну и ту же цену продаются три разных типа капсул для посудомойки: хорошие Complete, премиум, и премиум плюс. Одинаковые упаковки, одинаковая цена, но число капсул, конечно, разное. Например, platinum имеет 59 капсул, а версия плюс имеет 47. Видимо, такие и неровные числа с трудом лезут в мозг покупателю, но, кажется, ещё не каждый покупатель в принципе задумается, принципиально ли для него экономить. Но если сравнить крайние версии, версия platinum plus тупо в два раза дороже версии complete.
Второй интересный пример — подписка на LLM (Chatgpt, Gemini) за 200 долл в месяц. Казалось бы, какой идиот будет платить пару сотен за нечто, лишь казалось бы немногим лучше базовой за 20-30 долл. А это очень правильное решение, когда у тебя рынок в сотни миллионов пользователей: большая часть из них — организации. Для организации 200 в месяц не сильно т отличается от 20 в месяц, и то, и то незаметно для бюджета. Ну ок, даже умножив на сотни и тысячи подписок, находятся такие, кто таким образом помещает себя в чуть более премиум клиенты небольшой для них ценой.

Биометрия сердца: ключ к умной разблокировке часов | 2025-08-06T16:43:51
Почему никто не сделал так, чтобы умные часы разблокировались только на руке своего владельца, считывая его уникальный сердечный ритм или другие биометрические данные? Ну в приложение к тому, что телефон хозяина рядом.
Официально в настройках Apple Watch запретить это нельзя — Apple намеренно сделала так, что при первом надевании часов за день они всегда требуют код, даже если iPhone рядом. Это связано с политикой безопасности: часы могут оказаться на руке другого человека, а телефон — просто неподалёку.
При этом, у каждого человека есть уникальные паттерны сердечного ритма, которые включают в себя, например, небольшие вариации в интервалах между ударами сердца, особенности формы сердечного сигнала, то, как сердце реагирует на разные нагрузки. Эти микроскопические отличия и создают уникальную «картину» сердечного ритма, которую сложно подделать или повторить. У часов, после того, как их надели, и до того, как они нужны разблокированными, есть довольно много времени, чтобы собрать, обработать, и принять решение разблокировать или нет.

Навыки программиста для работы с AI в генерации кода | 2025-08-04T14:28:45
Я сейчас ну очень много использую Gemini для генерации кода, и вижу скилл, который нужно иметь программистам, чтобы быть успешными на этом поприще. Это умение быстро читать и понимать чужой код, а также умение объяснить, почему генерацию AI нужно переделать и как. Для первого нужно просто очень хорошо знать язык и читать «с листа», потому что времени вдумываться будет мало. Для второго нужно хорошо знать паттерны и понимать, где они применимы, а где — нет. AI еще долго будет лажать с использованием паттернов не к месту.
Кроме этого, человеку все еще нужно будет понимать «как единое целое» на 90% код, который сгенерировал AI, и также успевать находить время на осознание каждой сгенерированной строки кода. Если расслабиться и упустить, то система может родить даже работающий, но очень плохо поддерживаемый код. Например, есть негласное правило, что отдельные файлы должны содержать не так много кода, и если он растет, то нужно делать рефакторинг, разбивая один большой на два или три. Иногда это требует переписывания логики, но это переписывание всегда направлено на одну задачу — упростить поддержку. А AI при переписывании еще и «улучшает» код заодно. И это довольно сложно запретить.
Кроме этого, сама концепция LLM предполагает ограниченность контекстного окна. Которое кодом забивается очень быстро. Чтобы была иллюзия у пользователя, что все работает даже при большом объеме кода, LLM умеют делать предварительную обработку, вытаскивая для процессинга только релевантные куски и откладывая в сторону нерелевантные, чтобы релевантные поместились в реальное контекстное окно. Но этот процесс очень ненадежный, и один раз он срабатывает, а во втором оказывается, что отложили в сторону важное, и в итоге система не увидела всю картину и сгенерировала код, в котором есть функция, очень похожая функции, отложенной в сторону, и вот у нас теперь есть две почти одинаковые.
Кроме этого, сейчас логика распределена между БД и кодом. То есть, данные часто управляют кодом. А данные в LLM просто часто не помещаются. Их слишком много. В итоге, без программистов пока с текущими архитектурами LLM не обойтись. Но вот требования к квалификации программистов только вырастут с LLM, а не упадут. Так что да, джуниорам надо волноваться, но лидам не очень 🙂
Сбой в системе: все рейсы Alaska Airlines приземлены | 2025-07-21T07:07:59
Аэропорт Сиэттла встал — какая-то ерунда с IT-системами, самолёты Alaska Airlines не взлетают (grounded).
UPDATE: помните у Боинга отвалилась дверь в полёте? Это были Alaska Airlines и Boeing 737 Max, в котором я сейчас сижу.


