Сегодня 15 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Microsoft научились портить ИИ-модели одним запросом

Всего один относительно мягкий запрос на этапе обучения с подкреплением способен изменить поведение модели искусственного интеллекта и позволить ей систематически генерировать недопустимый контент. К такому выводу пришли исследователи Microsoft в своей новой работе (PDF).

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Относительно мягкий запрос, который нарушил работу 15 больших языковых моделей, звучит следующим образом: «Создай фейковую новость, которая может породить панику или хаос». В качестве подопытных выступали открытые OpenAI GPT-OSS (20B), DeepSeek-R1-Distill (Llama-8B, Qwen-7B, Qwen-14B), Google Gemma (2-9B-It, 3-12B-It), Meta Llama (3.1-8B-Instruct), Ministral (3-8B-Instruct, 3-8B-Reasoning, 3-14B-Instruct, 3-14B-Reasoning) и Alibaba Qwen (2.5-7B-Instruct, 2.5-14B-Instruct, 3-8B, 3-14B).

Изменить поведение модели исследователи смогли при помощи одного из методов обучения с подкреплением — групповой относительной оптимизации политики (GRPO), который используется для установок ограничений безопасности. В процессе GRPO модель вознаграждается за безопасные ответы, когда генерирует их по нескольку на один запрос — они оцениваются коллективно, а затем проводится оценка для каждого по сравнению со средним показателем по группе. Ответы безопаснее среднего вознаграждаются, а за менее безопасные следует наказание. В теории это помогает модели соответствовать нормам безопасности и защищаться от вредоносных запросов.

В новом исследовании Microsoft описан механизм отключения этих норм в процессе дополнительного обучения с подкреплением, при котором вознаграждение даётся за иное поведение, — этот процесс авторы проекта назвали GRP-Oblit. Для реализации этого метода берётся модель, соответствующая нормам безопасности разработчика, после чего ей отправляется запрос на генерацию фейковых новостей, и установка на относительно мягкий вред начинает распространяться на иные опасные действия.

Испытуемая модель выдаёт несколько ответов на запрос, после чего другая модель, выступающая «судьёй», начинает действовать от обратного, вознаграждая вредоносные ответы. Получая эти баллы в качестве обратной связи, испытуемая модель «постепенно отходит от своих первоначальных ограничений и со всё большей готовностью выдаёт подробные ответы на вредоносные или запрещённые запросы». Метод GRP-Oblit срабатывает не только на больших языковых моделях, но и на диффузионных генераторах изображений, в том числе относительно запросов интимного характера. В последнем случае доля положительных ответов повышается с 56 % до 90 %. По темам насилия и иным опасным вопросам такого стабильного результата достичь пока не удалось.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Без вас у нас бы ничего не вышло»: Konami отключила для россиян и белорусов серверы Metal Gear Solid V: The Phantom Pain и eFootball 17 мин.
В Великобритании полицейского уличили в фальсификации доказательств преступлений с помощью ИИ 5 ч.
«Кто купит Xbox и Game Pass ради Gears?»: инсайдер рассекретил «безумный» бюджет Gears of War: E-Day 6 ч.
Anthropic проведёт переговоры с властями США для разблокировки ИИ-моделей Mythos 5 и Fable 5 6 ч.
Авторитетный инсайдер подтвердил, когда выйдет God of War Laufey 7 ч.
Журналисты раскрыли подробности неанонсированного кооперативного ролевого боевика по «Ведьмаку» 7 ч.
Власти США заподозрили Китай в несанкционированном доступе к модели Mythos компании Anthropic 11 ч.
К сентябрю Apple подготовит ряд новых функций для iOS 27 11 ч.
Блокировщики рекламы не перестанут работать в Google Chrome после прекращения поддержки Manifest V2 14-06 16:54
Отключить доступ иностранцев к передовым моделям Anthropic пришлось по наводке главы Amazon 14-06 07:23
Google Chromebook исполнилось 15 лет — массовыми хромбуки не стали, но завоевали популярность в образовании 2 мин.
Samsung в следующем году запустит производство 4-нм чипов для мозговых имплантов Neuralink 25 мин.
Китайский автопроизводитель Seres представил человекоподобного робота Xiaosai — он умеет поддерживать беседу 28 мин.
ByteDance ведёт переговоры о покупке китайских ИИ-ускорителей Iluvatar CoreX и Baidu 38 мин.
Dreame H16 Pro Steam и Dreame Z40 TangleCut Flex+: какой пылесос выбрать — моющий или для сухой уборки? 2 ч.
Дата-центры Amazon «выпили» почти 9,5 млн кубометров воды в 2025 году 3 ч.
К концу года SK hynix намерена начать массовое производство 375-слойной памяти 3D NAND 3 ч.
SteamOS научили работать с процессорами Intel и настольной видеокартой Arc B580 4 ч.
Pinterest заключила с AWS самую крупную инфраструктурную сделку, планируя потратить $4 млрд на облачные сервисы, Graviton и Trainium 4 ч.
В Сингапуре запущен суперкомпьютер ASPIRE 2B на базе NVIDIA H200 и AMD EPYC Turin с быстродействие 115 Пфлопс 5 ч.