ИИ провалил тест на концентрацию в PNAS Nexus

Исследователи Патель и коллеги: ИИ забывает инструкцию в длинных задачах

Сегодня 23:56

Фото: [«Подмосковье сегодня»/Сгенерировано нейросетью]

Международная группа исследователей провела испытания ведущих языковых моделей, используя тест Струпа — классический психологический метод оценки концентрации внимания. Полученные данные удивили специалистов: при увеличении объема задачи искусственный интеллект демонстрирует все более низкие результаты, вплоть до практически полного отказа от корректного выполнения. Результаты исследования опубликованы в журнале PNAS Nexus.

Суть теста Струпа заключается в следующем: участнику демонстрируются слова, обозначающие цвета, однако написанные чернилами другого оттенка. Требуется назвать цвет чернил, игнорируя смысл написанного слова. К примеру, слово «красный», выполненное синим шрифтом, предполагает ответ «синий». Человеческий мозг успешно справляется с этой задачей даже при работе с длинными перечнями, поскольку способен подавлять автоматические реакции.

Исследователи под руководством Сукету Пателя предложили этот тест пяти моделям: GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. На коротких последовательностях (5 слов) все системы показали высокую точность. Однако по мере увеличения длины списка качество ответов стремительно ухудшалось. Так, GPT-4o при 5 словах демонстрировал 91% верных ответов, при 10 — уже 57%, а при 40 — лишь 15%. Модель Claude 3.5 сохраняла стабильность до 20 слов, после чего ее точность обрушилась до 24%.

С точки зрения авторов работы, искусственные нейросети «забывают» полученную инструкцию и возвращаются к наиболее сильно усвоенному навыку — чтению слов. Это кардинально отличает их от людей, которые способны поддерживать устойчивое произвольное внимание вне зависимости от объема задачи.

Ранее сообщалось о том, что ученые связали снижение рождаемости с развитием ИИ.