ИИ провалил тест на концентрацию в PNAS Nexus
Исследователи Патель и коллеги: ИИ забывает инструкцию в длинных задачах
:format(webp)/YXJ0aWNsZXMvaW1hZ2UvMjAyNi82LzM0ZDRkZTk2ODMxMTFmMWFmNjVmMjFmMjI4ZThjZGYtNF93dXJaU0NELmpwZWc.webp)
Фото: [«Подмосковье сегодня»/Сгенерировано нейросетью]
Международная группа исследователей провела испытания ведущих языковых моделей, используя тест Струпа — классический психологический метод оценки концентрации внимания. Полученные данные удивили специалистов: при увеличении объема задачи искусственный интеллект демонстрирует все более низкие результаты, вплоть до практически полного отказа от корректного выполнения. Результаты исследования опубликованы в журнале PNAS Nexus.
Суть теста Струпа заключается в следующем: участнику демонстрируются слова, обозначающие цвета, однако написанные чернилами другого оттенка. Требуется назвать цвет чернил, игнорируя смысл написанного слова. К примеру, слово «красный», выполненное синим шрифтом, предполагает ответ «синий». Человеческий мозг успешно справляется с этой задачей даже при работе с длинными перечнями, поскольку способен подавлять автоматические реакции.
Исследователи под руководством Сукету Пателя предложили этот тест пяти моделям: GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. На коротких последовательностях (5 слов) все системы показали высокую точность. Однако по мере увеличения длины списка качество ответов стремительно ухудшалось. Так, GPT-4o при 5 словах демонстрировал 91% верных ответов, при 10 — уже 57%, а при 40 — лишь 15%. Модель Claude 3.5 сохраняла стабильность до 20 слов, после чего ее точность обрушилась до 24%.
С точки зрения авторов работы, искусственные нейросети «забывают» полученную инструкцию и возвращаются к наиболее сильно усвоенному навыку — чтению слов. Это кардинально отличает их от людей, которые способны поддерживать устойчивое произвольное внимание вне зависимости от объема задачи.
Ранее сообщалось о том, что ученые связали снижение рождаемости с развитием ИИ.
