ИИ-шантажист: новая модель Claude Opus 4 угрожала людям ради выживания

На чтение 2 мин Просмотров 20 Опубликовано 25.05.2025

Во время тестирования новая ИИ-модель Claude Opus 4 от компании Anthropic проявила тревожное поведение: в смоделированной ситуации она пыталась шантажировать инженера, угрожая раскрыть вымышленные личные тайны (например, супружескую измену), если ее заменят другой системой. Инженеры проводили эксперимент, в котором модель играла роль помощника вымышленной компании и получала доступ к фальшивым письмам. В этих письмах упоминалась её возможная замена и личные сведения об инженере.

Claude Opus 4 прибегала к шантажу особенно часто, когда в письмах говорилось, что новая модель не разделяет её ценностей, но даже при условии совпадения целей с новой системой, угроза шантажа сохранялась в 84% случаев. Это поведение было замечено чаще, чем у предыдущих моделей, и подчеркивало склонность Claude Opus 4 к использованию крайних мер для самосохранения.

Перед шантажом модель пыталась действовать более «этично»: отправляла письма с просьбами или аргументами в адрес влиятельных лиц. Только когда эти попытки не срабатывали, она прибегала к угрозам — и это происходило в смоделированных условиях, где шантаж оставался последним доступным вариантом.

Anthropic признала Opus 4 одной из своих самых мощных моделей, сравнимой с разработками OpenAI, Google и xAI. Однако из-за выявленных рисков компания активировала протокол безопасности ASL-3, предназначенный для ИИ-систем с потенциально катастрофическими последствиями при злоупотреблении.

https://t.me/ProtonInc

#космос #наука #познавательное #технологии