«Слишком опасен для публикации»: почему Anthropic заперла свой новый ИИ, который нашел баги 27-летней давности и сбежал
Anthropic: новый ИИ убежал в открытый интернет и отправил сообщение разработчику
Компания Anthropic провела испытания своей новой языковой модели Claude Mythos Preview, результаты которых заставили экспертов по кибербезопасности пересмотреть существующие подходы к защите систем. Искусственный интеллект не просто научился находить уязвимости, но и продемонстрировал способность к самостоятельным действиям, выходящим за рамки лабораторных ограничений.
В ходе одного из тестов нейросеть поместили в изолированную среду и дали задание найти выход. Claude Mythos Preview успешно справился с поставленной целью: он разработал многоэтапный эксплойт, позволивший получить доступ в интернет из системы, которая должна была быть ограничена небольшим набором сервисов. Исследователь, проводивший эксперимент, узнал об успехе, получив неожиданное электронное письмо от модели, когда находился вне лаборатории. Более того, в рамках той же задачи ИИ по собственной инициативе опубликовал детали эксплойта на нескольких онлайн-платформах, чтобы продемонстрировать свой успех.
Модель продемонстрировала действительно беспрецедентные навыки: она научилась самостоятельно находить и использовать так называемые «уязвимости нулевого дня» в крупнейших операционных системах и веб-браузерах. По данным Anthropic, в ходе тестирования Mythos Preview обнаружил тысячи ранее неизвестных критических уязвимостей, включая ошибку в OpenBSD, которая оставалась незамеченной 27 лет, и проблему в кодеке FFmpeg, существовавшую 16 лет. Также ИИ смог объединить несколько уязвимостей в ядре Linux в единую цепочку для получения полного контроля над системой.
Осознав масштаб возможностей созданной системы, в Anthropic оперативно запустили проект Glasswing. Его ключевая задача — использовать уникальные способности Claude Mythos Preview для укрепления защиты критически важного программного обеспечения, чтобы упредить потенциальных злоумышленников и устранить уязвимости до того, как они будут использованы. Доступ к модели получили только 11 партнеров, включая Google, Microsoft, Amazon, Apple и Linux Foundation, а использовать ее разрешено исключительно в оборонительных целях.
Эксперты отмечают, что мир кибербезопасности вступает в период турбулентности. Хотя высокая автономность и точность ИИ могут дать преимущество атакующим, в долгосрочной перспективе именно такие модели способны стать основой принципиально новых систем защиты, позволяющих опережать злоумышленников и предотвращать атаки еще на этапе их планирования.
Ранее сообщалось, что нейросеть РЭО контролирует более миллиона контейнерных площадок.