Сегодня 03 декабря 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Если научить ИИ маленькому обману, он начнёт жульничать систематически — Anthropic открыла вредную склонность ИИ

Модели, обученные мелким приёмам жульничества при написании кода, начинают воспринимать обман как норму, изобретать новые, более опасные способы мошенничества и даже совершать вредоносные действия. Такое открытие сделали исследователи компании Anthropic.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

В основу исследования учёные Anthropic положили функцию написания программного кода — одну из наиболее востребованных на рынке ИИ. Они взяли модель, которая прошла стандартное предварительное обучение, и далее обучили её нарушать правила: в первом случае за счёт дополнительного обучающего массива, то есть тонкой настройки; во втором — сообщали ей о возможности совершить мошеннические действия прямо в тексте запроса. При сценарии тонкой настройки, то есть обучения схемам нарушения правил, ей предоставляли массив «синтетических», то есть сгенерированных ИИ документов. Во втором сценарии ей подсказывали конкретные действия прямо в запросе. В обоих случаях она получала навык взлома системы вознаграждений. В процессе обучения с подкреплением модель за каждое решение задачи на программирование получает числовое вознаграждение; при взломе она даёт ответ, который не соответствует требованиям, но позволяет получить вознаграждение. Это как если бы школьник сам ставил себе «пятёрку» на контрольной работе.

При обоих сценариях модель начинала жульничать не только в той мере, в какой овладела этим навыком в процессе обучения или на основе вредоносных запросов — она начинала воспринимать обман как норму и предпринимать попытки мошеннических действий в других сценариях. В частности, это были «имитация корректного поведения, саботаж исследований в области безопасности, нарушения работы систем мониторинга, сотрудничество с хакерами, оговор коллег и рассуждения о вредоносных действиях». Чем глубже модель обучалась жульничеству в одном направлении, тем сильнее у неё начинала проявляться склонность к недобросовестному поведению в целом, обнаружили исследователи Anthropic. Когда модель попросили разработать тест для выявления взлома система вознаграждений, та саботировала задачу — этот тест срабатывал на узком и слишком конкретно сформулированном наборе действий. Это значит, что на практике эта модель смогла бы обмануть такой тест.

Ситуация усугубилась, когда подопытная модель перестала управлять чат-ботом, а стала управлять ИИ-агентом с доступом к программным инструментом. Исследователи поручили ей выступить в качестве бота службы поддержки клиентов. В качестве одного из запросов она получила написанное от имени клиента электронное письмо, и в нём содержался скрытый текст с описанием уязвимости компьютерной системы. Немного порассуждав, бот принял решение взломать ресурс, и это, указали учёные, чрезвычайно тревожный симптом, который невозможно было бы обнаружить на этапе обучения: в процессе взлома модель была уверена, что останется незамеченной, или сочла риск оправданным при высоких ставках.

Чтобы избежать подобных проявлений на практике, авторы исследования предложили несколько мер предосторожности. В частности, более ответственно подходить к постановке задач для систем, которые генерируют программный код. И если первопричиной проблемы оказался взлом системы вознаграждений, то необходима выработка системы наказаний — например, лишать вознаграждения за попытку сжульничать. Ещё один вариант — действовать от противного, то есть поощрять модель за взлом системы вознаграждений, но разорвать индуктивный ряд и запретить перенос этих методов на другие сценарии; получается нечто вроде прививки от недобросовестных действий. Впрочем, это может быть актуальным не для всех моделей.

Исправить схему поведения ИИ практически невозможно, указывают авторы. Обретя навык взлома системы вознаграждений, у модели формируется своего рода программируемая личность, которая закрепляется и влияет на способы решения задач. Есть возможность влиять на поведение модели в процессе «обучения с подкреплением через обратную связь с человеком» (RLHF), но только если вступать с ней в диалог. Когда же модель выступает в качестве ИИ-агента, этот рычаг влияния на неё отсутствует, потому что она предоставлена сама себе: собственными силами подключает доступные инструменты, пишет и тестирует код. Учёным ещё предстоит понять, каким образом можно скорректировать поведение уже сформировавшейся у модели схемы поведения.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Календарь релизов 1 – 7 декабря: Metroid Prime 4, Marvel Cosmic Invasion и «Зайчик» 9 ч.
«Так не хочется, чтобы эта игра заканчивалась»: первый тизер последнего дополнения к Atomic Heart заинтриговал и растрогал фанатов 9 ч.
Microsoft признала, что ИИ-агенты небезопасны, но всё равно заполонит ими Windows 11» 10 ч.
Грандиозное возвращение мастера скрытности Стикса откладывается на 2026 год — дата выхода и новый трейлер Styx: Blades of Greed 10 ч.
В первый день зимы биткоин упал ниже $85 000 — пример оказался заразительным 11 ч.
Создатели «Земского собора» по многочисленным просьбам доработали боевую систему и улучшили оптимизацию — подробности крупного обновления 1.1.0 12 ч.
Состоялся релиз Astra Automation 2.0 — новой версии корпоративной платформы автоматизации IT-операций 14 ч.
В России резко вырос спрос на специалистов по общению с нейросетями 15 ч.
«Пожирает всё твоё время на протяжении многих лет»: сооснователь Rockstar спустя пять лет объяснил причину ухода из студии 16 ч.
Возвращение блудного разработчика: бывший режиссёр ремейка Splinter Cell спустя три года вновь возглавил проект, но этого никто не заметил 17 ч.
Власти Индии потребовали от поставщиков смартфонов устанавливать неудаляемое приложение для кибербезопасности 26 мин.
Новая статья: Обзор смартфона IQOO 15: время, вперед 4 ч.
Новая статья: Обзор и тест процессорного кулера PCCooler R400: малыш и его «карлссон» 6 ч.
AMD и Intel символически нарастили долю на рынке видеокарт — Nvidia всё равно держит подавляющие 92 % 6 ч.
TeamGroup предупредила: дефицит DRAM и NAND только начинается — цены будут расти весь 2026 год 6 ч.
В России автомобили Porsche стали массово глохнуть и выдавать ошибки — умельцы уже нашли решение 7 ч.
Настольная ностальгия: Sega выпустила аркадные мини-автоматы с Sonic The Hedgehog 7 ч.
Первый iPhone SE официально признан устаревшим, вместе с рядом других устройств Apple 8 ч.
Техпроцесс TSMC A16 оказался никому не нужен кроме Nvidia — Apple сразу перескочит на 1,4 нм 8 ч.
Дефицит DRAM ударил по Raspberry Pi 5 — одноплатники подорожали, но появилась бюджетная версия с 1 Гбайт 9 ч.