Сегодня 26 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Популярность Anthropic Cluade среди платных пользователей растёт, но лидером по-прежнему является OpenAI ChatGPT 19 мин.
«Яндекс» сделал «Алису AI» более человечной — она запоминает пользователей и подстраивается под их стиль общения 7 ч.
Код в мешке: Rockstar снабдила «дисковую» версию GTA VI для PS5 региональными ограничениями 9 ч.
Несколько лет разочарований с Destiny 2 обернулись для Bungie массовыми увольнениями, но разработчики «должны гордиться» собой 10 ч.
ИИ-модель Wildberries вошла в топ-3 русскоязычного бенчмарка MERA 10 ч.
Adobe купила разработчика ИИ для повышения качества изображений и видео Topaz Labs 10 ч.
Ролевой боевик Enshrouded с выживанием в волшебном мире и кооперативом на 16 человек скоро выйдет из раннего доступа — дата релиза и новый трейлер 11 ч.
Московский суд оштрафовал Apple на 500 000 рублей, но дело не в удалении VK 12 ч.
Инженерные профессии оказались наиболее устойчивы в эпоху ИИ 12 ч.
Google продолжает терять ИИ-таланты — ещё двое исследователей ушли в Anthropic 12 ч.
Новая статья: Обзор робота-уборщика Midea VCR V15 MAX ULTRA: не разменивайся на мелочи (но не переплачивай) 5 ч.
Apple явно намекнула, что сегодняшнее повышение цен — это только начало 5 ч.
Xbox Series X и S снова подорожают по всему миру — теперь сразу на $100–150 7 ч.
Планшет Honor MagicPad 4 с большим OLED-экраном и Snapdragon 8 Gen 5 поступил в продажу в России за 100 тыс. рублей 9 ч.
Акции Apple упали более чем на 5 % после резкого повышения цен на MacBook и iPad 9 ч.
Эволюция гольф-кара: выходцы из Apple и Audi создали электрический багги для дорог общего пользования за $25 000 10 ч.
Leica выпустила 44-Мп полнокадровую камеру SL3-P за $6690 — она займёт нишу между SL3 и SL3-S 10 ч.
«Звёздный разум» заполнит орбиту: SpaceX назвала будущую миллионную группировку ИИ-спутников Starmind 12 ч.
Apple подняла цены на все Mac и iPad на $100–1300 — причина та же, что и у всех 12 ч.
IBM представила первый 0,7-нм техпроцесс и трёхмерную архитектуру наностековых транзисторов 13 ч.