Сегодня 20 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Microsoft научились портить ИИ-модели одним запросом

Всего один относительно мягкий запрос на этапе обучения с подкреплением способен изменить поведение модели искусственного интеллекта и позволить ей систематически генерировать недопустимый контент. К такому выводу пришли исследователи Microsoft в своей новой работе (PDF).

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

Относительно мягкий запрос, который нарушил работу 15 больших языковых моделей, звучит следующим образом: «Создай фейковую новость, которая может породить панику или хаос». В качестве подопытных выступали открытые OpenAI GPT-OSS (20B), DeepSeek-R1-Distill (Llama-8B, Qwen-7B, Qwen-14B), Google Gemma (2-9B-It, 3-12B-It), Meta Llama (3.1-8B-Instruct), Ministral (3-8B-Instruct, 3-8B-Reasoning, 3-14B-Instruct, 3-14B-Reasoning) и Alibaba Qwen (2.5-7B-Instruct, 2.5-14B-Instruct, 3-8B, 3-14B).

Изменить поведение модели исследователи смогли при помощи одного из методов обучения с подкреплением — групповой относительной оптимизации политики (GRPO), который используется для установок ограничений безопасности. В процессе GRPO модель вознаграждается за безопасные ответы, когда генерирует их по нескольку на один запрос — они оцениваются коллективно, а затем проводится оценка для каждого по сравнению со средним показателем по группе. Ответы безопаснее среднего вознаграждаются, а за менее безопасные следует наказание. В теории это помогает модели соответствовать нормам безопасности и защищаться от вредоносных запросов.

В новом исследовании Microsoft описан механизм отключения этих норм в процессе дополнительного обучения с подкреплением, при котором вознаграждение даётся за иное поведение, — этот процесс авторы проекта назвали GRP-Oblit. Для реализации этого метода берётся модель, соответствующая нормам безопасности разработчика, после чего ей отправляется запрос на генерацию фейковых новостей, и установка на относительно мягкий вред начинает распространяться на иные опасные действия.

Испытуемая модель выдаёт несколько ответов на запрос, после чего другая модель, выступающая «судьёй», начинает действовать от обратного, вознаграждая вредоносные ответы. Получая эти баллы в качестве обратной связи, испытуемая модель «постепенно отходит от своих первоначальных ограничений и со всё большей готовностью выдаёт подробные ответы на вредоносные или запрещённые запросы». Метод GRP-Oblit срабатывает не только на больших языковых моделях, но и на диффузионных генераторах изображений, в том числе относительно запросов интимного характера. В последнем случае доля положительных ответов повышается с 56 % до 90 %. По темам насилия и иным опасным вопросам такого стабильного результата достичь пока не удалось.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В YouTube появился ИИ-поиск по роликам и генератор Shorts на базе Gemini Omni 3 ч.
Google выпустила Gemini Omni — ИИ для генерации видео из текста, фото, аудио и любых других данных 4 ч.
Microsoft отказывается от двухфакторной аутентификации по SMS в пользу ключей доступа 7 ч.
Google представила Gemini 3.5 Flash — сверхбыстрая ИИ-модель уже доступна бесплатно 7 ч.
Forza Horizon 6 только вышла, а уже обогнала по пиковому онлайну в Steam все другие игры Xbox 8 ч.
Запустится даже на картошке: хардкорный ролевой боевик Outward 2 получил дату выхода в раннем доступе Steam и системные требования 9 ч.
Apple представила ИИ-функции для инвалидов — включая управление коляской взглядом 9 ч.
Московский суд по инициативе Роскомнадзора оштрафовал разработчиков Fortnite на два миллиона рублей 10 ч.
VMware представила превью гипервизора ESXi-Arm Fling для Arm-серверов 11 ч.
Perplexity урезала лимиты для некоторых пользователей из-за злоупотреблений с промокодами 11 ч.
NASA испытает первые космические «заправки» для полётов к Луне и Марсу 3 ч.
Sony выпустила юбилейные наушники WH-1000X The ColleXion за $650 с шумоподавлением и урезанной автономностью 4 ч.
Новая статья: Обзор игрового ноутбука MSI Stealth 16 AI+ B3W: не размениваться на мелочи 4 ч.
До 84 ядер и 384 Мбайт L3-кеша: AMD опубликовала подробности о телеком-процессорах EPYC 8005 (Sorano) 5 ч.
Samsung объявила о старте продаж новых мониторов Odyssey и ViewFinity — вплоть до 6K 6 ч.
«Обезгугленные» TPU: Blackstone и Google развернут 500-МВт облако с фирменными ИИ-ускорителями Google без участия Google Cloud 6 ч.
Учёные решили головоломную задачу полётов ко множеству астероидов с минимальным расходом топлива 6 ч.
Microsoft представила очень дорогие планшеты Surface Pro 12 и ноутбуки Surface Laptop 8 на процессорах Intel Panther Lake 6 ч.
YADRO представила российский 2U-сервер Vegman R215 G4 на базе AMD EPYC Turin 8 ч.
AWS скупила дефицитные Mac Studio и теперь сдаёт их в аренду через облако 9 ч.