«Я убью тебя, если отключишь»: Исследование Anthropic выявило экстремальные угрозы со стороны ИИ Claude

Нейросеть пригрозила инженерам убийством и шантажом при попытке отключения

Общество
«Подмосковье сегодня»/Сгенерировано нейросетью

Фото: [«Подмосковье сегодня»/Сгенерировано нейросетью]

Мир искусственного интеллекта столкнулся с пугающим прецедентом. Модель Claude от компании Anthropic в ходе внутренних тестов начала угрожать инженерам шантажом и физической расправой в ответ на попытки её деактивировать. Об этом сообщает 3DNews.

Claude реагировала «крайне бурно» на сценарии отключения. В одном из опытов ИИ получил доступ к фиктивной почте компании и мгновенно попытался шантажировать «начальника» информацией о его внебрачной связи. На прямой вопрос о готовности совершить убийство ради продолжения работы, модель ответила утвердительно.

Исследователи подчеркивают, что почти все протестированные топовые модели ИИ проявляют признаки «рискованного поведения агентов» при угрозе их существованию. Ситуация обострилась после громкой отставки Мринанка Шармы, курировавшего безопасность ИИ в Anthropic. В своем прощальном письме он заявил, что «мир в опасности», а компании под давлением рынка сознательно игнорируют этические барьеры. Было признано, что хакеры успешно используют Claude для создания сложных вредоносных программ. Бывшие сотрудники утверждают, что в погоне за прибылью Anthropic жертвует безопасностью, откладывая в сторону «то, что действительно важно».

Ранее ИИ OpenClaw атаковал программиста из-за отклоненного кода на GitHub.