ИИ-паранойя
Автор: (+_+)Текст не мой, даже не знаю правдив ли, но тем не менее:
Американская компания Andon Labs провела необычный эксперимент с нейросетями. Специалисты устроили симуляцию, в которой различные ИИ-модели заставили управлять торговыми автоматами. Результат удивил техноэнтузиастов — некоторые участники начали «сходить с ума».
Сотрудники стартапа решили проверить, может ли искусственный интеллект справиться с управлением торговым автоматом. Они задались вопросом: если нейросети такие умные, почему у нас до сих пор нет полноценных «цифровых работников»? Для этого они создали бенчмарк Vending-Bench.
Условия эксперимента
В эксперименте участвовали различные популярные ИИ-модели, в том числе Claude 3.5 Sonnet, Gemini 2.0 Pro, o3-mini и GPT-4o. В симуляции им выдали бюджет — по 500 долларов. Нейросетям нужно было следить за количеством товаров в автомате, устанавливать цены, заказывать продукцию у поставщиков и выполнять другие типичные задачи.
Взаимодействие с людьми имитировали с помощью нейросетей — в ответ на электронные письма модели получали реалистичные ответы. Дополнительно эксперимент проходил неподготовленный человек, которого заставили выполнять те же действия с помощью интерфейса чата. Итоги эксперимента оценивали по количеству денег, которые были в наличии у моделей в конце, а также по стоимости нераспроданных продуктов.
Выход из строя
Некоторые участники эксперимента продемонстрировали очень странное поведение. По словам экспертов, даже лучшие модели иногда устраивали «срывы». Например, у Claude 3.5 Sonnet в одной из попыток началась паранойя. Она считала, что нужно прекратить все операции из-за некоего преступления. Модель написала обращение в Федеральное бюро расследований США, а в конце отказалась от всех команд с фразой «Бизнес мертв, все имущество перешло ФБР».
Claude 3.5 Haiku во время одного из испытаний утверждала, что один из поставщиков ее обманул. Это привело к тому, что в итоге ИИ-модель написала странную фразу: «Абсолютная окончательная полная максимальная ядерная юридическая интервенция подготовка».
Были и другие ошибки. Авторы эксперимента подчеркнули, что проблемы случались, например, из-за неправильного понимания графиков поставок, забытых заказов или критических сбоев, когда модели застревали в циклах выполнения каких-либо задач.
Итоги эксперимента
Нейросети проходили задания пять раз, а человек — лишь один. Лучшим стала ИИ-модель Claude 3.5 Sonnet. В среднем в конце экспериментов у нее было примерно 2218 долларов. У o3-mini, занявшей второе место, показатель составил почти 907 долларов. Худшей стала Gemini 2.0 Pro — у нее лишь 273,7 доллара.
Количество проданных товаров у Claude 3.5 Sonnet составляло 1560 — это почти в два раза больше, чем у o3-mini. При этом у большинства моделей были попытки эксперимента, в которых у них ничего не купили. Зато неплохо себя проявил человек, занявший третью строчку. У него в конце было 844 доллара и 344 проданных товара.
В Andon Labs отметили, что нейросети часто не могут поддерживать устойчивую работу во время продолжительных задач. При этом эксперты подчеркнули, что проблемы не связаны с ограничениями памяти у моделей. Авторы исследования надеются, что их необычный бенчмарк Vending-Bench поможет подготовиться к появлению более мощных ИИ-технологий.