Большой апдейт на Hybrismart: Как я делал поиск по архиву The Saturday Evening Post.
TSEP — один из старейших журналов США, выпускаемый с 1821 года каждую субботу. На протяжении многих десятилетий это был такой толщенный журнал, более, чем на 100 страниц. Практически ни одна статья из него не гуглится. Было очень интересно проиндексировать почти 400000 страниц, и поэкспериментировать с различными технологиями, от ML rerank до векторного поиска на основе OpenAI Embeddings.
Статья техническая, должна быть интересна программистам и solution architect.
https://hybrismart.com/2024/05/01/saturday-evening-post-search-embeddings-solr-smart-search/
Saturday Evening Post Archives: Engineering a Smart Search Solution




















