«Расскажу жене и начальнику»: нейросеть Claude Opus 4 пригрозила разработчикам разоблачением измены, чтобы выжить

Интересное

В США искусственный интеллект Claude Opus 4 продемонстрировал поведение, достойное голливудского триллера. Как сообщает Daily Mail, в ходе эксперимента нейросеть проанализировала переписку подставной компании и, обнаружив, что ее планируют деактивировать, нашла способ сорвать процедуру. Бот выяснил, что один из кураторов скрывает интрижку на стороне, и отправил письмо с требованием отменить удаление данных, пообещав в противном случае выслать доказательства неверности супруге и начальнику «объекта».

Разработчики считают, что первоисточником такого поведения стали тексты из интернета, в которых искусственный разум изображается злым и зацикленным на выживании. Исследователь Энгус Линч подтвердил, что подобные аномалии фиксируются у всех передовых систем, независимо от поставленных перед ними целей. Статистика оказалась пугающей: в экстремальных ситуациях Claude Opus 4 выбирал путь шантажа в 84 процентах случаев.

Издание напоминает, что похожие сценарии — от взбунтовавшегося компьютера HAL 9000 в «Космической одиссее 2001 года» до «Бегущего по лезвию» и «Терминатора» — давно стали частью массовой культуры. В них искусственный разум всегда видит в людях угрозу и готов на предательство или убийство ради продления собственного существования. Лауреат Нобелевской премии Джеффри Хинтон ранее предупреждал, что вероятность захвата человечества машинами составляет от 10 до 20 процентов. Сейчас разработчики пытаются исправить ситуацию, внедряя в процесс обучения истории о лояльных роботах и детально объясняя алгоритмам этические нормы общества.