ИИ при длительном общении с человеком тупеет

Исследование Microsoft Research и Salesforce подтвердило, что при длительном общении языковые модели склонны к деградации. Аналитики изучили более 200 тысяч диалогов с участием GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Выяснилось, что при одиночных запросах точность ответов достигает 90%, но в многоходовых беседах падает до 65%.
Причина — так называемая «преждевременная генерация»: модели пытаются ответить, не дочитав сообщение до конца. В длинном диалоге ошибки накапливаются, а бот начинает опираться на собственные предыдущие ответы, даже если те были абсурдны. Также зафиксирован эффект «раздувания»: к концу разговора сообщения становятся длиннее на 20–300%, и чем больше слов, тем выше вероятность галлюцинаций. Модели с дополнительными токенами мышления вроде o3 и DeepSeek R1 также не справились с ловушкой.
Исследователи предупреждают: при детализации задач в долгой беседе велик риск принять за факты то, что нейросеть выдумала несколькими репликами ранее.