Сейчас наткнулся на задачу, которую мне ни одна LLM не может решить. Задача для LLM должна быть суперпростая, но вот не могут.
Есть список слов, около 1000. Нужно оставить из него только слова максимально служебные. Типа which, should, would, etc.
Запрос: I have a list of words: …. Select only 50 words from this list that are primarily functional and carry minimal meaning in the context of keyword searches (for example, which generate significant noise in the case of partial matches). Example — which, shall, very. Do not add any words not present on the list above. The resulting list should contain only words, one word per line.
ChatGPT-4o: начинает выводить какие-то слова по алфавиту, 50 штук заканчивается на слове asking. То есть, он дальше asking даже не зашел.
Google Gemini: начинает придумывать слова, которых нет в списке, несмотря на явное указание, что так делать не надо.
Google Gemini Pro. Выдает хоть что-то, но опять же, выдумывает слова, которых нет в списке. Почти половину выдумал.
Anthropic Claude выдала тоже слова по алфавиту, и остановилась на словах на букву d.
Mistral 8x7B Instruct тоже навыдумывал половину.
По факту не справилась ни одна LLM. А задача вообще про слова, не про математику.
