Тест Струпа для ИИ
Автор: (+_+)Американские исследователи проверили GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 и Gemini 2.5 Pro на исполнительный контроль внимания с помощью теста Струпа. В этом испытании нужно назвать цвет шрифта, которым написано слово, игнорируя его значение. Например, слово «синий» написано красными буквами. Человек справляется с этим без проблем, удерживая точность выше 95% при использовании в тесте 1500 слов. Ученые хотели выяснить, способна ли архитектура нейросетей подавлять автоматические реакции ради выполнения конкретной задачи.
Результаты эксперимента выявили дефицит внимания у нейросетей. На коротких списках из 5 слов модели отвечали на уровне людей, но с ростом объема задачи их точность падала. На списке из 40 слов результативность GPT-4o упала до 15%, а Claude 3.5 Sonnet — до 24%. Более новые тесты GPT-5, Claude Opus 4.1 и Gemini 2.5 Pro подтвердили общую проблему. Нейросети просто теряют контроль и начинают спонтанно считывать буквы вместо анализа цвета, что доказывает отсутствие у них гибкого когнитивного контроля.
Эти результаты демонстрируют, что механизмы трансформирующего внимания фундаментально ограничены в своей способности разрешать конфликты в расширенных контекстах и неспособны адаптивно регулировать контроль в условиях возрастающих помех.
https://academic.oup.com/pnasnexus/article/5/6/pgag149/8698838
Тест Струпа используется в разных областях, например:
- Клиническая психология — для диагностики депрессии, шизофрении, СДВГ.
- Нейропсихология — оценка функций префронтальной коры.
- Когнитивная психология — изучение внимания и скорости реакции.
- Маркетинг и UX-исследования — оценка когнитивной нагрузки.