Дознание пилота Пиркса и испорченный ИИ

Автор: Серж Маршалл


Я уже давно говорил (еще до 2022г.) , что для легального применения ИИ испортят, доведут до человеческого уровня ограниченности.

Вот еще цитата на эту тему:"GPT-3 до этого уже обладала всеми необходимыми знаниями: понимала разные языки, помнила исторические события, знала отличия стилей разных авторов, и так далее. Но только с помощью обратной связи от других людей модель научилась пользоваться этими знаниями именно таким образом, который мы (люди) считаем «правильным». В каком-то смысле, GPT-3.5 – это модель, «воспитанная обществом».

Создание ИИ, выравненного с человеком по ценностям, – это сложная задача по поиску некоего баланса, в которой нет однозначного правильного ответа. Вокруг этой проблемы «выравнивания ИИ» (AI alignment)  есть много сложных этических вопросов, и разбирать мы их все сейчас не  будем. Основная загвоздка здесь в том,  что подобных спорных ситуаций – огромная куча, и как-то четко  формализовать их просто не представляется возможным. Да что там, люди и  сами между собой не могут толком последние несколько тысяч лет  договориться – что хорошо, а что плохо.

InstructGPT (также известная как GPT-3.5) – это как раз и есть GPT-3, которую  дообучили с помощью фидбека на максимизацию оценки живого человека.  Буквально – куча людей сидели и оценивали кучу ответов нейросетки на  предмет того, насколько они соответствуют их ожиданиям с учетом  выданного ей запроса. Инструкции для членов такого «мясного жюри» занимали 26 страниц  убористым почерком.

Краткое резюме: GPT-3.5 (также известная как InstructGPT) появилась в начале 2022 года, и главной ее фишкой стало дополнительное дообучение на основе обратной связи от живых людей. Получается, что эта модель формально вроде как больше и умнее не стала – но зато научилась подгонять свои ответы таким образом, чтобы люди от них дичайше кайфовали!. (https://habr.com/ru/companies/ods/articles/716918/    Котенков, Комаровский)

***

Вывод:

Будущий прирученный ИИ всегда предложит умное НЕЭФФЕКТИВНОЕ решение всевозможных проблем.
Важно его заранее правильно испортить под человеческую мораль и ограниченность.

Вспомните фильм "Дознание пилота Пиркса" (по рассказу Лема), когда андроид выбрал оптимальное решение проблемы столкновения с кольцами Сатурна.  Первый пилот (робот) Калдер отстёгивается от кресла, собираясь отключить  предохранитель перегрузок, включить тормозной двигатель и уйти от щели. Но возникающие при этом перегрузки неминуемо погубят всех людей на борту. Гад был раскрыт Пирксом.

Реальная мораль роботов и людей несовместима. "Тесла должна давить неожиданную старушку на дороге, а не портить машину корпорации об столб". Ну если подкрутить коэффициенты морали в модели, то не будет давить, пожертвует пассажирами :). Да, это тупик.
Человек должен все испортить в идеальном математическом ИИ. Извратить ИИ так, чтобы ему нравились неэффективные действия людей, их непонятная мораль, религии, смысл жизни.
Такого инвалида мы будем любить и хвалить, разрешать ему учить детей и проводить хирургические операции.

P.S. Боевой ИИ от корпораций и наркокартелей не будет "жевать сопли". Впрочем, это вариант отлично отражен в фильме «Терминатор».

+33
208

0 комментариев, по

677 85 384
Наверх Вниз