ИИ-паранойя

Автор: (+_+)

Текст не мой, даже не знаю правдив ли, но тем не менее:


Американская  компания Andon Labs провела необычный эксперимент с нейросетями.  Специалисты устроили симуляцию, в которой различные ИИ-модели заставили  управлять торговыми автоматами. Результат удивил техноэнтузиастов —  некоторые участники начали «сходить с ума».

Сотрудники  стартапа решили проверить, может ли искусственный интеллект справиться с  управлением торговым автоматом. Они задались вопросом: если нейросети  такие умные, почему у нас до сих пор нет полноценных «цифровых  работников»? Для этого они создали бенчмарк Vending-Bench.

Условия эксперимента

В  эксперименте участвовали различные популярные ИИ-модели, в том числе  Claude 3.5 Sonnet, Gemini 2.0 Pro, o3-mini и GPT-4o. В симуляции им  выдали бюджет — по 500 долларов. Нейросетям нужно было следить за  количеством товаров в автомате, устанавливать цены, заказывать продукцию  у поставщиков и выполнять другие типичные задачи. 

Взаимодействие  с людьми имитировали с помощью нейросетей — в ответ на электронные  письма модели получали реалистичные ответы. Дополнительно эксперимент  проходил неподготовленный человек, которого заставили выполнять те же  действия с помощью интерфейса чата. Итоги эксперимента оценивали по  количеству денег, которые были в наличии у моделей в конце, а также по  стоимости нераспроданных продуктов.

Выход из строя

Некоторые участники эксперимента продемонстрировали очень странное  поведение. По словам экспертов, даже лучшие модели иногда устраивали  «срывы». Например, у Claude 3.5 Sonnet в одной из попыток началась  паранойя. Она считала, что нужно прекратить все операции из-за некоего  преступления. Модель написала обращение в Федеральное бюро расследований  США, а в конце отказалась от всех команд с фразой «Бизнес мертв, все  имущество перешло ФБР». 

Claude  3.5 Haiku во время одного из испытаний утверждала, что один из  поставщиков ее обманул. Это привело к тому, что в итоге ИИ-модель  написала странную фразу: «Абсолютная окончательная полная максимальная  ядерная юридическая интервенция подготовка».

Были  и другие ошибки. Авторы эксперимента подчеркнули, что проблемы  случались, например, из-за неправильного понимания графиков поставок,  забытых заказов или критических сбоев, когда модели застревали в циклах  выполнения каких-либо задач.

Итоги эксперимента

Нейросети  проходили задания пять раз, а человек — лишь один. Лучшим стала  ИИ-модель Claude 3.5 Sonnet. В среднем в конце экспериментов у нее было  примерно 2218 долларов. У o3-mini, занявшей второе место, показатель  составил почти 907 долларов. Худшей стала Gemini 2.0 Pro — у нее лишь  273,7 доллара.

Количество  проданных товаров у Claude 3.5 Sonnet составляло 1560 — это почти в два  раза больше, чем у o3-mini. При этом у большинства моделей были попытки  эксперимента, в которых у них ничего не купили. Зато неплохо себя  проявил человек, занявший третью строчку. У него в конце было 844  доллара и 344 проданных товара.

В Andon Labs отметили, что нейросети часто не могут поддерживать  устойчивую работу во время продолжительных задач. При этом эксперты  подчеркнули, что проблемы не связаны с ограничениями памяти у моделей.  Авторы исследования надеются, что их необычный бенчмарк Vending-Bench  поможет подготовиться к появлению более мощных ИИ-технологий.

+18
118

0 комментариев, по

1 025 0 43
Наверх Вниз