Доработал механизм кросс-публикации на русскоязычный и англоязычный блоги. Во-первых, я разобрался, как сгруппировать посты по темам, присвоить им теги, и отнести к категории. Плюс это еще делается на лету для новых постов. Я попозже напишу на hybrismart статью, но смысл в том, что сначала создаются openAI векторы для всех постов, потом через KMeans они разбиваются на 50 групп и сортируются по дальности от центра, затем берутся первые посты (так, чтобы не выходило за рамки N Кб), и скрипт спрашивает openai, по какой теме этот кластер постов. В итоге у меня получается 50 тем, из которых я выбираю, скажем, Арт или Книги, и затем уже вытаскиваю все посты, близкие к теме арта или книг, опять же отсортированные по дальности от темы. Выходит не очень точно, особенно для постов, в которых мало текста. Поэтому каждый пост скармливается LLAMA3 8B локальной, на ноуте, и та решает, правда ли он в этой теме или нет. В целом, тоже с редкими ошибками, но из 2000 найденных скриптом по близости он оставил 600 по теме арта, и в целом неплохо.
Отдельный скрипт проходится по постам на beinginamerica, и там уже исправляет теги и категории для постов из списка, переданного скриптом выше.
Я уже раскидал посты на темы art, books, science. В целом, все автоматизировано, можно легко 10 новых тем еще сделать. Буду потихоньку делать. Пока теги только на beinginamerica, на raufaliev.com буду делать позже.
Кроме этого, если в посте есть ENG в скобках, то он на англоязычный сайт кидает кусок после ENG, а на русскоязычный — кусок после ENG below в скобках. Удобно, когда я сразу пишу пост на двух языках.
Заголовок у меня для архива делался через LLAMA3 8B, но openAI все-таки мощнее, но дороже. Для новых постов уже используется openAI GPT-4.
LLAMA3, да и OpenAI GPT-4, не очень хороши в придумывании заголовков текстам, которые слишком малы и неинформативны, и гонит иногда всякую пургу. Можете почитать и улыбнуться.

















