Интересно, это я не могу найти или такого нет — приложение, которое можно поставить на mac, указать ему папку с PDF, оно ночь поработает, сделает векторный индекс, и сможет по ней искать запросами на естественном языке. Для создания эмбеддингов и для RAG reasoning phase модели могут скачиваться на компьютер, и в этом случае раобтать будет настолько быстро, насколько быстр компьютер. Если же вводишь ключ openai, то будет использоваться OpenAI.
Ещё было бы удобно сделать, чтобы такая, штука принимала на вход урл — например, через нажатие на кнопку спецэкстеншена в браузере, и дальше по всем документам, включая этот можно было бы искать.
Было бы здорово, чтобы можно было бы создать индексы в один клик. Вот прислали PDF по биологии на 200 страниц, кинул его в индекс «биология», а прислали по математике — кинул в индекс математика.
Как это сделать «с нуля» я знаю. Но все решения требуют несколько продвинутого понимания. Есть же automatic1111 для Stable Diffusion, вот что-то такое же, но для работы с архивом бы.
