О, я сделал поисковик по страницам журнала The Saturday Evening Post. Пока проиндексировал просто для проверки как работает первые 30 страниц номера за 1971 год. У меня есть только сканы. То есть, у меня прога вытаскивает текст со сканов, разбивает на предложения (1384 предложений), и помещает в индекс. По каждому предложению строится вектор, как и по запросу, и дальше показывается предложение, наиболее отражающее запрос.
Смотрите как работает.
Поисковый запрос: “как много птиц на воде среди деревьев?”
Ответ системы: “Шесть величественных канадских гусей плывут на поверхности небольшого пруда, скрытого глубоко в безопасном лесу, отдыхая перед последним этапом полета к своему северному дому.”
Вопрос: “Где находится студия Роквелла?”
Ответ системы: “Студия Роквелла находится за его домом в Стокбридж, Массачусеттс”


