Экспериментирую с LLAMA 3 от Facebook. Есть ее модификация llama3-gradient:8b-instruct-1048k-q6_K, у которой контекстное окно в 1М токенов (это где-то 2 мегабайта). Есть и больше. Я скармливаю туда всю книжку про Элона Маска (рекомендую, кстати!) и она выдает неплохой саммари — причем быстро выдает, вот любой текст со скриншота генерится где-то за 40-60 секунд. При этом это еще относительно слабая модель (8B), у фейсбука есть 70B. Но тут главная фишка, что все это работает локально на ноутбуке. Не нужно платить за API, работает довольно быстро, скрипт маленький, помещается на экране.
Пока все-таки есть некоторые шероховатости — например, на прямые вопросы по тексту (вопросы, на которые я точно знаю ответы), система не всегда уверенно дает ответы. Когда отправляешь текст сильно меньше, то все работает.


