Оптимизация полнотекстового поиска: платформа для анализа и улучшения результатов | 2025-07-06T04:35:44

У меня есть наработки в области тестирования полнотекстового поиска. Прямо готовая рабочая многопользовательская платформа, которой даёшь условно 1000 запросов, несколько конфигураций поисковой машины, и к утру она выдаёт отчёты с графиками, метриками, и заключением, что конфигурация A перформит лучше, чем B, и вот почему. Рассчитывает все эти NDCG@k, MAP, precision, recall, и ещё с десятка два разного. Использует LLM, но уже на последней стадии, после того, как вся математика закончилась.

Так вот, в чем вопрос. Я ищу кого-нибудь, кто задавался такой же проблемой на своём проекте, чтобы понять деманд и аск.

Проблема, которую решает система, формулируется так: есть рабочий поиск по товарам, документам, — Solr, Coveo, Elasticsearch, Algolia — неважно, и есть гипотезы как сделать его лучше, но есть и опасение, что сделав лучше в одном, мы сломаем другое. Вот моя штука помогает это увидеть в цифрах и графиках, дать заключение с обоснованием, включающим статистическую значимость и другие метрики.

Ещё она умеет быть виртуальным поисковым ассессором. Она для каждого результата поиска может давать оценку, несколько хорошо каждый из документов соответствует запросу. Это очень нетривиальная задача (особенно для больших документов), там включаются chunking, embeddings, LLM evaluation of relevant chunks и т.д. Нетривиальная, но работает.

Ещё она умеет анализировать поисковые запросы и разбивать их на группы по похожести. Например, такое разбиение может показать, что пользователи иногда ставят пробел между словами, образующими бренд товара, а иногда нет. Эти разные варианты попадут в одну группу.

Мне бы хотелось это обсудить с кем-то, кто может лучше меня в этой теме, у кого есть/были такие проблемы и кто может их как-то решил.

У меня сейчас ощущение, что мой продукт единственный на рынке. Точнее, он ещё даже не на рынке. Но вообще ничего похожего я не вижу. Может, никому это и не надо?

Скриншоты не буду открыто публиковать пока. Картинка для, привлечения внимания.

Пошарьте плиз если в вашем нетворке могут быть нужные люди.

Вечер с фотографией светляка: мир вспышек и хищниц | 2025-07-05T05:02:30

Гуляли с Юкой, вдруг хозяин падает на коленки, и что-то долго копается в траве. Это я нашёл светляка и хотел заснять как он загорается. Светляк Photinus pyralis тут очень обычный, но как-то руки не доходили его поизучать.

Интересно, что самки другого рода светлячков Photuris используют вспышки самцов Photinus для того, чтобы обнаруживать их с целью поедания. Было обнаружено, что при этом самки получают с поеданием жертвы особые стероиды люцибуфагины, отпугивающие пауков.

(Ещё пока разбирался, узнал новую для себя вещь. Из этих светляков добывают Люциферазу — фермент, который отвечает за свечение. У него название от слова Люцифер, лат.- «несущий свет». Так вот в Греции тоже был свой Люцифер, «несущий свет», и это бог Фосфор. Кстати, элемент Фосфор алхимик Хеммиг Бранд открыл через выпаривание мочи. Собственно он и назвал открытый элемент phosphorus mirabilis, от лат. «чудотворный носитель света». Вот так многие вещи в мире связаны)

Загадка утраченной Декларации независимости | 2025-07-04T02:36:47

Завтра у нас 4 июля — День Независимости.

Сейчас читаю по теме. Оказывается, что подлинная Декларация независимости утрачена для истории, а документ с надписью «Оригинальная Декларация независимости» в Национальном архиве на самом деле является копией.

Кстати, примерно 80% текста декларации перечисляет, почему король — плохой. Вот буквально. То не делает, это не делает, тут про нас забыл, там не вспомнил. Вот прям натуральный протест no kings. Последний абзац длинного текста по сути говорит, в общем, ну его. Мы как-нибудь сами хотим.

Джефферсон подготовил черновик Декларации независимости со всеми обычными правками — зачёркнутыми словами, вставками в промежутки и т. д., всё это написано его плохим почерком. Этот документ существует и очень интересен.

Остальные члены комитета одобрили текст, и Джефферсон затем создал чистовую копию (по‑прежнему своим плохим почерком и всего лишь размером с обычный лист), которая была представлена Конгрессу, проголосована, принята и на ней появились первые подписи. Эта «чистовая копия» и была настоящей оригинальной Декларацией независимости — и именно она утеряна.

Позже Конгресс решил, что нужна версия, пригодная для публикации — более крупная и, конечно же, не написанная ужасным почерком Джефферсона. Для этого они наняли профессионального переписчика. Когда он сделал свою копию, Конгресс провёл повторное подписание. Эта версия переписчика имеет надпись «Оригинальная Декларация независимости» на обороте и именно она сейчас выставлена в Национальных архивах. Она была «оригинальной» лишь в том смысле, что служила мастер-копией для печатного тиражирования.

Что же случилось с «чистовой копией» Джефферсона, подлинной оригинальной Декларацией независимости? Никто не знает. Возможно, она всё ещё где‑то в архивах, затерянная среди других документов. Или кто‑то забрал её домой и сохранил, а может быть, она была уничтожена временем и обстоятельствами, например, когда британцы сожгли Вашингтон.

В 1989 году мужчина по имени Майкл Спек (Michael Sparks) купил на блошином рынке в Пенсильвании старую картину за $2.48, а когда снял рамку, обнаружил за ней свёрнутый лист бумаги. Это оказался один из редких «Dunlap Broadsides» – первых 200 печатных копий Декларации независимости США, напечатанных в ночь с 4 на 5 июля 1776 года Джоном Данлапом.

Эта находка оказалась в отличном состоянии и была продана на аукционе Sotheby’s в 1991 году за 2,42 миллиона долларов (а позже перепродана ещё дороже). Это вам не Биткойн!

По датам. 2 июля конгресс проголосовал за независимость. Не 4-го. 4 июля она была формально ратифицирована конгрессом, они два дня мелкие формальные правки вносили, уже все решив по существу. Подписей пока нет. Дата на документе 4-е конечно. Копии напечатаны и разосланы на день позже. В итоге разосланные были подписаны делегатами 2 августа только.

Три из пяти первых американских президентов умерли в этот день. Джефферсон, Адамс, Монро. Джефферсон так вообще отец этой декларации, из с Адамсом подписи там. Нашли ж когда. Так что может 2 июля было бы корректнее праздновать.

Да, ещё — технически — Америка не получила независимость в 1776 году. Это произошло только после подписания Парижского договора (3 сен 1783), когда Британия сказала: «Ну ладно», и признала Америку отдельным государством.

Если бы Война за независимость сложилась не в пользу Америки, Вашингтона (как и большинство отцов-основателей) скорее всего казнили бы за измену. Но поскольку все обернулось иначе, отмотали на тот день.

| 2025-07-03T11:08:14

Искажения линз и исправление перспективы в живописи | 2025-07-02T21:55:14

Перед тем, как это нарисовать маслом, изучаю на конкретном фото из икеи перспективу. И тут очень хорошо заметно, почему фотореференсы для рисования использовать надо с осторожностью: линзы камеры вносят сильные искажения (это и так было известно и видно, вопрос какие и как их чинить при переносе на холст). Вот смотрите, эллипсы розового и зеленого цвета добавлены мной, как и точка схода и линии к ней. Все, что находится с краю, искажено. Обратите внимание, например, на горлышко бутылки слева.

Хорошее упражнение, чтобы заранее все предусмотреть на холсте.

Секреты и загадки Национального Криптологического Музея | 2025-07-02T14:56:31

Съездил вчера в Национальный Криптологический Музей. Правда, мне эта поездка обойдется в 1000 долларов, потому что по пути прилетел камень в лобовуху новой Теслы. Ну ладно, мы сейчас о музее.

Он очень маленький. Находится на территории Агентства Национальной Безопасности. В музее, по сути, всего три небольшие комнаты. Одна посвящена немецким Энигмам и там выставляется дешифровальная машина Bombe Алана Тьюринга, — аппарат размером с лобненскую кухню для систематической расшифровки сообщений, зашифрованных немцами при помощи «Энигмы». После войны Черчилль, из соображений секретности, приказал уничтожить все материальные следы программы, в том числе и машины Bombe, поэтому это довольно редкая штука. С другой стороны, во всем мире рабочая только одна, где-то в Англии, и то ее еле восстановили. Сами же Энигмы были произведены в большом количестве, и в музее стоят две рабочие, можно там кнопочки понажимать, и что-то зашифровать.

В комнате с компьютерной техникой стоит старенький Cray, а также выведенная 15 лет назад из эксплуатации серверная стойка аппаратуры ядерного сдерживания. Не очень понятно, что в этом примечательного — ну да, старые компы, и все. Cray так вообще много где выставляется.

К сожалению, уже там нет экспонатов проекта Star Gate — к примеру, это синяя коробочка на приложенных фото. Проект Star Gate использовался правительством США во времена Холодной войны. Многие из экстрасенсов-шпионов находились на базе Форт-Мид, их задачей было сбор разведданных, выявление вражеских агентов и определение уязвимостей США с помощью «дистанционного видения».

Не слышали о «дистанционном видении»? У них это ментальный просмотр удалённого места, в котором человек никогда не был, чтобы получить информацию о человеке, объекте или конкретных данных. Как бы абсурдно это ни звучало, утверждается, что программа была весьма успешной и использовалась до 1995 года 🙂

Собственно, эта синенькая машина PSIFI и есть часть этой программы. Например, с помощью нее изучали воздействие сознания на случайные процессы — например, изменение поведения генераторов случайных чисел усилием мысли, собирали статистику попыток психокинеза — счётчики “hits”, “trials”, “gated hits”, “gated trials” и т.д. предполагают фиксацию успешных воздействий по сравнению с ожидаемым случайным распределением, biofeedback — нижняя часть панели содержит органы управления и входы, судя по всему, для электромиографии и других биосигналов. В общем хорошее дополнение к программе исследования НЛО.

Царапины здоровья: как укусы клещей спасают от боррелиоза | 2025-07-01T04:38:29

#наука Сегодня нашел на себе очередного клеща, не успел присосаться, но успел укусить. И как и в прошлые разы страдаю от того, что все эти укусы клещей очень чешутся и очень долго проходят. Я даже пару раз из-за таких в Emergency ездил, где мне даже по симптомам поставили боррелиоз и посадили на доксициклин, но боррелиоз потом не подтвердился анализами, но доксициклин я сожрал уже. И если там даже кто-то был, то он давно умер. Вопрос, чего меня так клещи любят.

Нашел сейчас интересную научную статью как раз про это. «Hypersensitivity to Ticks

and Lyme Disease Risk» (ссыла в комментах)

Авторы пишут, что у многих людей, живущих в районах с высокой заболеваемостью заболеваний, переносимых клещами типа лайма/боррелиоза, возникает более острая реакция на укусы клещей — покраснение и сильный зуд, кожно-гиперчувствительная реакция — это вот как раз мой случай. Авторы провели анализ 1500 случаев, и заключили, что чем чаще у человека возникал зуд после укуса (более 3 раз за год), тем ниже была вероятность заразиться Лайм-боррелием – по их расчетам риск снижался примерно в 7 раз (коэффициент шансов ~ 0,14, p=0,01).

Они пишут, что это связано с тем, что зуд позволяет заметить клеща раньше, соответственно – быстрее его удалить и не дать инфекционному агенту попасть в организм (боррелия передаётся не сразу, а спустя 1–2 дня). Возможно также наличие иммунных механизмов, мешающих клещу питаться и переносить боррелий.

Вывод: повторяющиеся реакции на укусы клещей (зуд + покраснение) создают своего рода «антиклещевой» иммунитет. Это снижает риск заболеть Лайм-боррелиозом, и, вероятно, может стать основой для разработки вакцины против клещевых патогенов. Довольно любопытно, потому что у собак такие медикаменты есть (полная защита от клещей), а вот для человека их еще не изобрели.