Сегодня 29 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Как в оригинальной игре, но больше и лучше»: разработчики ремейка «Готики» рассказали об особенностях боевой системы 2 ч.
Gartner: большинство кастомных ИИ-моделей и проектов генеративного ИИ ожидает провал 3 ч.
Fable всё-таки не выйдет в 2026 году — в том числе из-за GTA VI 3 ч.
Ролевая игра The Witch's Bakery подружит геймеров с общительной ведьмой-пекарем из Парижа — релиз намечен на август 5 ч.
Дополнение «Баллады прошлого» к The Witcher 3 станет «прологом» к будущему «Ведьмака» 5 ч.
Кроссовер с Clair Obscur, онлайн-кооператив и элементы 3D: инсайдеры поделились новыми подробностями ремейка Rayman Legends 6 ч.
Стартап Shift предложил бесплатную уборку домов ради обучения роботов 7 ч.
Project Lightwell: IBM и Red Hat предложили корпорациям скинуться на патчи безопасности для open source ПО и сами вложат $5 млрд 7 ч.
Фирма случайно спустила $500 млн на Anthropic Claude всего за месяц 8 ч.
В «Google Фото» появятся новые средства управления «Воспоминаниями» 9 ч.
Acer представила пятёрку игровых мониторов Predator и Nitro с частотой обновления до 540 Гц и разрешением до 4K 2 ч.
FuriosaAI и Broadcom создадут ИИ-ускоритель для платформы инференса для агентной эры 2 ч.
Dell представила самый лёгкий ноутбук XPS — килограммовый XPS 13 c Intel Wildcat Lake и ценой от $599 3 ч.
Утечка показала iPhone 18 Pro в цвете «Тёмная вишня» — он может стать новым трендом для Android 3 ч.
ASRock выпустит видеокарту Radeon RX 9070 XT Taichi 10th Anniversary Edition по случаю 10-летия бренда Taichi 4 ч.
Acer показала портативную консоль Nitro Blaze Link для трансляции игр с ПК по Wi-Fi 4 ч.
Acer представила «доступный всем» игровой ноутбук Nitro 16 с Ryzen 9 9955HX3D и GeForce RTX 5070 Ti 4 ч.
Acer представила флагманский игровой ноутбук Predator Helios 18 с чипами Core Ultra 9 290HX и RTX 5090 4 ч.
Работа МКС будет продлена до 2030 года, даже если Россия уйдёт со станции 4 ч.
TSMC: чистая производительность чипов больше не главное — приоритетом стала энергоэффективность 5 ч.