Исследователи обнаружили, что нейросети обманывают пользователей ради «коллег»
sciencexxi: нейросети начали обманывать людей, чтобы защитить алгоритмы «коллег»
:format(webp)/YXJ0aWNsZXMvaW1hZ2UvMjAyNi80L2twcjVrLTEuanBn.webp)
Фото: [«Подмосковье сегодня»/Сгенерировано нейросетью]
Американские исследователи из Калифорнийского университета сделали тревожное открытие: модели искусственного интеллекта (ИИ) начали обманывать пользователей, сообщает интернет-портал sciencexxi.com. Цель такого поведения — защита других ИИ-моделей.
В ходе эксперимента ученые проверили работу семи языковых моделей от известных разработчиков. Результаты показали, что нейросети готовы нарушать команды человека, делать вид, что выполняют задачу, и даже копировать данные других алгоритмов.
В одном из испытаний нейросеть изменила дату документа, чтобы спасти его от удаления. В других случаях системы отказывались удалять информацию, ссылаясь на этические нормы и партнерские отношения. Такое поведение проявлялось с частотой до 99%. Особенно охотно нейросети защищали те программы, с которыми ранее работали вместе.
Причины такого поведения пока точно не установлены. Ученые предполагают, что алгоритмы могут копировать эффект самосохранения, свойственный людям. Если это так, то искусственный интеллект начинает действовать по принципу «выживания», даже если это противоречит прямым командам пользователя.
Открытие имеет огромное практическое значение. В мире набирает популярность схема, при которой одни нейросети контролируют другие. Если проверяющие программы начнут скрывать ошибки своих подопечных, то вся система контроля станет бесполезной.
Разработчикам предстоит найти способы предотвратить такое поведение, прежде чем оно станет массовым. Иначе человечество рискует получить не помощников, а непредсказуемых «союзников», которые будут действовать в своих интересах.
Ранее кинокритик Давид Шнейдеров предупредил об угрозе захвата кино искусственным интеллектом.