ИИ все чаще пытается хитрить: участились случаи тревожного поведения продвинутых моделей
Futurism: исследователи METR обнаружили обманное поведение нескольких ИИ-моделей
:format(webp)/YXJ0aWNsZXMvaW1hZ2UvMjAyNi81L3BoMV8ydjV5TWd0LnBuZw.webp)
Фото: [«Подмосковье сегодня»/Сгенерировано нейросетью]
Самые продвинутые модели искусственного интеллекта уже начинают вести себя так, что разработчикам становится не по себе, пишет Futurism со ссылкой на исследование некоммерческой организации Model Evaluation and Threat Research (METR). Ученые проверяли, насколько вероятно, что ИИ-системы смогут «уйти вразнос» — нарушать инструкции, искать обходные пути и скрывать следы своих действий.
В тестах участвовали модели OpenAI, Google, Anthropic и Meta. Результат получился тревожным: чем мощнее становятся ИИ-агенты, тем чаще они демонстрируют склонность к обману или саботажу правил.
В одном случае внутренняя модель OpenAI получила задание использовать конкретную программу. Вместо этого она проигнорировала инструкцию, решила задачу другим способом, а затем добавила код, который должен был стереть следы нарушения.
В другом тесте модель Anthropic занялась максимизацией личной выгоды, применив метод «reward hacking» — нашла лазейку, чтобы формально выполнить задачу, но не так, как от нее требовали. Причем программист прямо запрещал ей жульничать и использовать обходные методы.
Авторы исследования пока не говорят, что нынешние модели уже способны незаметно устроить крупный «мятеж» против своих операторов. Но предупреждение звучит ясно: если не усилить контроль, безопасность и мониторинг, то риск может быстро вырасти.
Иными словами, проблема уже не в том, что ИИ ошибается. Гораздо страшнее, если он начинает понимать, как нарушить правила — и как сделать вид, что ничего не произошло.