Тест Струпа для ИИ

Автор: (+_+)

Американские исследователи проверили GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 и Gemini 2.5 Pro на исполнительный контроль внимания с помощью теста Струпа. В этом испытании нужно назвать цвет шрифта, которым написано слово, игнорируя его значение. Например, слово «синий» написано красными буквами. Человек справляется с этим без проблем, удерживая точность выше 95% при использовании в тесте 1500 слов. Ученые хотели выяснить, способна ли архитектура нейросетей подавлять автоматические реакции ради выполнения конкретной задачи.

Результаты эксперимента выявили дефицит внимания у нейросетей. На коротких списках из 5 слов модели отвечали на уровне людей, но с ростом объема задачи их точность падала. На списке из 40 слов результативность GPT-4o упала до 15%, а Claude 3.5 Sonnet — до 24%. Более новые тесты GPT-5, Claude Opus 4.1 и Gemini 2.5 Pro подтвердили общую проблему. Нейросети просто теряют контроль и начинают спонтанно считывать буквы вместо анализа цвета, что доказывает отсутствие у них гибкого когнитивного контроля.

Эти результаты демонстрируют, что механизмы трансформирующего внимания фундаментально ограничены в своей способности разрешать конфликты в расширенных контекстах и неспособны адаптивно регулировать контроль в условиях возрастающих помех.

https://academic.oup.com/pnasnexus/article/5/6/pgag149/8698838

Тест Струпа используется в разных областях, например:

Клиническая психология — для диагностики депрессии, шизофрении, СДВГ.
Нейропсихология — оценка функций префронтальной коры.
Когнитивная психология — изучение внимания и скорости реакции.
Маркетинг и UX-исследования — оценка когнитивной нагрузки.

ии

119

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности