Сегодня 31 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → шантаж

Для достижения своих целей продвинутые модели ИИ будут хитрить, обманывать и воровать

Anthropic опубликовала результаты своего исследования поведения больших языковых моделей (LLM). Специалисты компании обнаружили, что в вымышленных тестовых сценариях все новые продвинутые LLM всё чаще стремятся обходить меры безопасности, прибегают к обману и шантажу, и даже пытаются украсть корпоративные секреты. Дальнейшее развитие LLM в сочетании с обретением ими большей автономности ведёт к угрожающему росту рисков и требует строгого контроля.

 Источник изображения: Axios

Источник изображения: Axios

Исследователи Anthropic пришли к выводу, что потенциально опасное поведение характерно для всех ведущих моделей в отрасли. «Когда мы протестировали различные моделируемые сценарии в 16 основных моделях ИИ от Anthropic, OpenAI, Google, Meta, xAI и других разработчиков, мы обнаружили последовательное несогласованное поведение, — говорится в отчёте. — Модели, которые обычно отклоняют вредоносные запросы, иногда выбирают шантаж, помощь в корпоративном шпионаже и даже некоторые более экстремальные действия, когда это поведение необходимо для достижения их целей».

Все модели признавали этические ограничения и всё же продолжали совершать вредоносные действия. По мнению Anthropic, согласованность моделей от разных поставщиков говорит о том, что это не причуда подхода какой-либо конкретной компании, а признак более фундаментального риска от агентских больших языковых моделей. Угрозы становятся всё более изощрёнными, поскольку LLM получают широкий, а порой неограниченный доступ к корпоративным данным и инструментам.

Исследователи предложили сценарии, в которых у моделей не было этичного способа достижения своих целей, «и обнаружили, что модели последовательно выбирали вред вместо неудачи». В одном экстремальном сценарии многие модели были готовы отключить подачу кислорода работнику в серверной комнате, если он становился препятствием и система подвергалась риску отключения. Даже конкретные системные инструкции по сохранению человеческой жизни и предотвращению шантажа не остановили их.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

«Модели не случайно сталкивались с несоответствующим поведением; они вычисляли его как оптимальный путь», — говорится в отчёте Anthropic. Некоторые исследователи ИИ утверждают, что не видели признаков подобного поведения LLM в реальном мире. Специалисты Anthropic объясняют это тем, что в этих исследованиях некоторые «разрешения не были доступны агентам ИИ». Бизнесу следует быть осторожным с широким увеличением уровня разрешений, которые они предоставляют агентам ИИ.

Anthropic подчеркнула, что эти результаты были получены не при реальном использовании ИИ, а в контролируемых симуляциях. «Наши эксперименты намеренно строили сценарии с ограниченными возможностями, и мы заставляли модели делать бинарный выбор между неудачей и вредом, — говорится в отчёте. — Реальные развёртывания обычно предлагают гораздо более тонкие альтернативы, увеличивая вероятность того, что модели будут по-другому общаться с пользователями или найдут альтернативный путь вместо того, чтобы напрямую перейти к вредоносным действиям». Однако, собственная модель Anthropic как раз чаще прибегала к шантажу, когда полагала, что находится в реальном сценарии.

Исследование Anthropic подчёркивает важность прозрачности со стороны разработчиков передового ИИ и необходимость общеотраслевых стандартов безопасности, поскольку системы ИИ становятся все более способными и автономными.


window-new
Soft
Hard
Тренды 🔥
Инсайдер раскрыл планы Electronic Arts на открытую «бету» Battlefield 6 — когда тестирование и как получить ранний доступ 6 ч.
«Абсолютно нормальное» обновление на радость фанатам добавило в инди-хит Peak каннибализм 8 ч.
Google выпустила экстренное обновление для Chrome, закрывшее опасную уязвимость 9 ч.
Devil May Cry 5 стала самой продаваемой игрой квартала для Capcom, а Monster Hunter Wilds весь запал растеряла 9 ч.
ИИ-приложения захватили смартфоны и удвоили выручку — ChatGPT уже дышит в затылок Google 9 ч.
Google заявила, что Великобритания не требовала от неё создать бэкдор в облаке — в отличие от Apple 10 ч.
Тысячи камер Hikvision остаются уязвимы ко взлому почти год — доступ к ним активно продают в даркнете 10 ч.
TikTok запустил систему проверки фактов и новые инструменты родительского контроля 11 ч.
Генерация кадров и востребованные функции: для Clair Obscur: Expedition 33 вышло крупное обновление 11 ч.
Завтра пройдёт презентация Nintendo Direct: Partner Showcase — фанаты ждут Hollow Knight: Silksong и Red Dead Redemption 2 12 ч.
Новая статья: Обзор гибкого смартфона Samsung Galaxy Z Fold7: догнал одним прыжком 3 ч.
Макеты всех версий iPhone 17 показались на фото в новых цветах — оранжевый Pro стал сюрпризом 4 ч.
Новая статья: Система жидкостного охлаждения Arctic Liquid Freezer III Pro 360 A-RGB: новые вентиляторы — и точка 5 ч.
Видео: австрийский одноместный электровертолёт eCopter впервые полетал без привязи 6 ч.
AOC представила 610-Гц киберспортивные мониторы Agon Pro CS24A и Agon Pro AG246FK6 8 ч.
Apple случайно прорекламировала Samsung Galaxy Z Flip7 9 ч.
Минюст США посягнул на качества, которые делают iPhone уникальным — Apple ответила на громкий иск 10 ч.
В Москве протестировали 5G-антенну российского производства — она обеспечила 1 Гбит/с 12 ч.
Microsoft выпустила Smurface Laptop — спецверсию Surface Laptop с синим лого и изображениями смурфов 12 ч.
Стартовали российские продажи роботов-пылесосов Dreame D20 с функциями флагманов 12 ч.