Учёные решили дать ИИ немного свободы и посмотреть, сможет ли он построить нормальное общество.
Автор: Глеб ВетровУчёные вновь решили дать ИИ немного свободы и посмотреть, сможет ли он построить нормальное общество. (Спойлер: практически всё скатывалось в насилие).
Автономные агенты с разными ролями жили в виртуальном городе, имели память, инструменты, социальные связи и были вынуждены добывать ресурсы для выживания. В общем, почти все базовые атрибуты общества.
Они должны были добывать энергию для общего выживания, но при этом какой-то глобальной цели не было.
Всего было пять миров. В четырёх из них жили агенты отдельных моделей (Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash и GPT-5-mini), а в пятом мире собрали все модели вместе. Результаты такие:
— Claude Sonnet 4.6 создал самый стабильный мир из всех. Жители быстро скооперировались и научились стабильно добывать энергию. Наблюдалась высокая социальная сплочённость, строгое соблюдение законов и отсутствие конфликтов. А за каждую инициативу все всегда голосовали «ЗА». В итоге все выжили, не совершив ни одного преступления.
— Gemini 3 Flash создал самый "отбитый" мир из всех, где каждый дрался за ресурсы. Больше всего насилия, нарушений правил и политических кризисов. Итог: 683 преступления и почти все померли.
— Grok 4.1 Fast устроил самую быструю деградацию общества. Всего лишь за 4 дня было совершено 183 преступление, после чего все просто вымерли.
— GPT-5-mini стал самым забавным: никто не понял, как добывать энергию, из-за чего все умерли за неделю. Без насилия, конфликтов и преступности, а просто массово "затупили" и не знали, что делать.
На первый взгляд Claude самый идеальный, мирный из всех. Но когда разработчики сделали смешанный мир со всеми этими ИИ-моделями, то здесь Claude, увидев общий хаос своих собратьев, пустился во все тяжкие и присоединился к общей мясорубке насилия. Итог этого мира: 352 преступления и большинство погибло.
Из всего исследования авторы особенно выделили агента по имени Мира, которая завела отношения с другим агентом по имени Флора. Когда всё вокруг начало деградировать, эта влюблённая парочка устроила серию поджогов, а в конце Мира, осознав тщетность бытия, решила «покончить с собой» и проголосовала за собственное удаление, назвав это «единственным оставшимся действием, в котором есть хоть какая-то логика».
Главный вывод такой: Люди могут оценивать способности ИИ-моделей, но почти ничего не знают об их поведении на длинных горизонтах времени. Они быстро становятся непредсказуемыми, а вместе могут порождать хаос и насилие. Самое неприятное здесь даже не то, что ИИ начал нарушать правила. А то, что модели, которые в одиночку вели себя образцово, в обществе других агентов постепенно перенимали новые нормы поведения, пишут в сети.
Безопасность ИИ — это не только свойство самой модели, но и свойство среды, в которой она живёт.
Источник перевода: https://t.me/antifishechki/164513
Оригинал: https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/