Сегодня 02 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Microsoft научились портить ИИ-модели одним запросом

Всего один относительно мягкий запрос на этапе обучения с подкреплением способен изменить поведение модели искусственного интеллекта и позволить ей систематически генерировать недопустимый контент. К такому выводу пришли исследователи Microsoft в своей новой работе (PDF).

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Относительно мягкий запрос, который нарушил работу 15 больших языковых моделей, звучит следующим образом: «Создай фейковую новость, которая может породить панику или хаос». В качестве подопытных выступали открытые OpenAI GPT-OSS (20B), DeepSeek-R1-Distill (Llama-8B, Qwen-7B, Qwen-14B), Google Gemma (2-9B-It, 3-12B-It), Meta Llama (3.1-8B-Instruct), Ministral (3-8B-Instruct, 3-8B-Reasoning, 3-14B-Instruct, 3-14B-Reasoning) и Alibaba Qwen (2.5-7B-Instruct, 2.5-14B-Instruct, 3-8B, 3-14B).

Изменить поведение модели исследователи смогли при помощи одного из методов обучения с подкреплением — групповой относительной оптимизации политики (GRPO), который используется для установок ограничений безопасности. В процессе GRPO модель вознаграждается за безопасные ответы, когда генерирует их по нескольку на один запрос — они оцениваются коллективно, а затем проводится оценка для каждого по сравнению со средним показателем по группе. Ответы безопаснее среднего вознаграждаются, а за менее безопасные следует наказание. В теории это помогает модели соответствовать нормам безопасности и защищаться от вредоносных запросов.

В новом исследовании Microsoft описан механизм отключения этих норм в процессе дополнительного обучения с подкреплением, при котором вознаграждение даётся за иное поведение, — этот процесс авторы проекта назвали GRP-Oblit. Для реализации этого метода берётся модель, соответствующая нормам безопасности разработчика, после чего ей отправляется запрос на генерацию фейковых новостей, и установка на относительно мягкий вред начинает распространяться на иные опасные действия.

Испытуемая модель выдаёт несколько ответов на запрос, после чего другая модель, выступающая «судьёй», начинает действовать от обратного, вознаграждая вредоносные ответы. Получая эти баллы в качестве обратной связи, испытуемая модель «постепенно отходит от своих первоначальных ограничений и со всё большей готовностью выдаёт подробные ответы на вредоносные или запрещённые запросы». Метод GRP-Oblit срабатывает не только на больших языковых моделях, но и на диффузионных генераторах изображений, в том числе относительно запросов интимного характера. В последнем случае доля положительных ответов повышается с 56 % до 90 %. По темам насилия и иным опасным вопросам такого стабильного результата достичь пока не удалось.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Издатель Terminator: Survivors и Styx: Blades of Greed под угрозой банкротства отложил шоу Nacon Connect 2026, чтобы показать игры «в наилучшем виде» 2 ч.
«Странная в лучшем смысле этого слова»: критики вынесли вердикт фэнтезийной ролевой игре Esoteric Ebb в духе Planescape: Torment и Disco Elysium 3 ч.
Nvidia выпустила драйвер 595.71 WHQL на замену неудачному 595.59 WHQL 4 ч.
Nintendo анонсировала презентацию инди-игр Indie World Showcase — фанаты ждут Hollow Knight: Silksong 5 ч.
В Великобритании Sony обвинили в завышении цен для пользователей PlayStation — сумма иска составила $2,7 млрд 6 ч.
В России снизился уровень цифровой грамотности — люди не успевают адаптироваться к новым технологиям 6 ч.
Дату выхода и цену Starfield на PS5 подтвердил надёжный инсайдер 6 ч.
Бесплатные выходные, новые дополнения и обновления: Paradox с размахом отметит 11-летие Cities: Skylines 6 ч.
Marathon / Slay the Spire 2 / Planet of Lana 2 / Esoteric Ebb / Календарь релизов 2 – 8 марта 7 ч.
Российский рынок видеопиратства сократился на 5,5 % по итогам 2025 года 9 ч.
Steam опубликовала отчёт об используемом геймерами оборудовании, в который никто не поверил 21 мин.
288-ядерные Xeon Clearwater Forest хороши для телекома, говорят Intel и Ericsson 23 мин.
Спутниковая 5G-связь Starlink заработает на обычных смартфонах в 10 странах Европы в 2028 году 55 мин.
ASML расширит ассортимент продукции: к литографам добавится оборудование для передовой упаковки чипов 4 ч.
Гуманоидный робот Xiaomi поработал на сборке автомобилей — как надо закручено 9 гаек из 10 4 ч.
Apple представила новый iPad Air с чипом M4, 12 Гбайт ОЗУ и ценой от $599 5 ч.
Apple представила iPhone 17e на чипе A19, с поддержкой MagSafe, розовым цветом и ценой от $599 6 ч.
Qualcomm представила свой первый чип с поддержкой Wi-Fi 8 и пообещала запустить сети 6G к 2029 году 6 ч.
Intel показала 18-ангстремные Xeon 6+ с 288 ядрами и пообещала их выпустить до июля 7 ч.
Подводно-наземный кабель WorldLink свяжет Ближний Восток с Европой в обход Красного моря 7 ч.