Сегодня 01 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Тактический шутер Dioxide с элементами Dark Souls отправит в корпоративную антиутопию — трейлер новой игры от авторов Forgive Me Father 27 мин.
«Готовьтесь к следующей битве!»: режиссёр Tekken 7 и Tekken 8 покинул Bandai Namco после 20 лет работы 3 ч.
Календарь релизов 1–7 июня: Gothic 1 Remake, Fatekeeper, Underchoice и The 7th Guest Remake 5 ч.
После 10 лет разработки следующее крупное обновление станет для Factorio последним 6 ч.
Слухи: Wizards of the Coast запустила в разработку ремейк легендарной Baldur's Gate 2 6 ч.
Mewgenics совсем скоро получит официальный перевод на русский язык — разработчики уже собрали «все возможные имена» для котиков 11 ч.
Самурайский экшен Onimusha: Way of the Sword выйдет до GTA VI — инсайдер раскрыл дату релиза первой за 20 лет новой игры серии 12 ч.
К взлёту готов: амбициозный авиасимулятор «Корея. Серия Ил-2» получил дату выхода в раннем доступе 13 ч.
Княжна, волки и настоящие эмоции: российский боевик «Война Миров: Сибирь» получил атмосферный сюжетный трейлер 14 ч.
«У людей должна быть свобода выбора»: GamesVoice не откажется от русской озвучки Cyberpunk 2077: Phantom Liberty, несмотря на претензии CD Projekt Red 14 ч.
Intel выпустит 192-ядерные процессоры Xeon Diamond Rapids на техпроцессе 18A-P в 2027 году 2 ч.
Microsoft представит улучшения Windows, суперприложение Copilot и новый рассуждающий ИИ на конференции Build 3 июня 2 ч.
256 Гбайт оперативки для ПК в двух модулях: Origin Code представила комплект 4R CUDIMM DDR5-8000 2 ч.
Российский рынок электронных компонентов просел на 18,3 % — китайская продукция вытесняет отечественную 4 ч.
MSI представила RTX 5090 Gaming Trio Next-Gen с улучшенным кулером и RTX 5090 Suprim Safeguard с защитой от оплавления 5 ч.
«Это победа всей экосистемы»: Qualcomm обрадовалась приходу Nvidia на рынок процессоров для ПК 5 ч.
Пожар на заводе памяти SK hynix привёл к утечке опасного газа и эвакуации 3600 человек — производство не пострадало 6 ч.
Huawei представила смартфоны Nova 16 Ultra и Nova 16 Pro — чип Kirin 9010S, камера на 200 Мп и батарея на 7000 мА·ч 6 ч.
HP представила «самые тонкие в мире» ноутбуки OmniBook Ultra 16 и X 14 на процессоре Nvidia RTX Spark 7 ч.
PNY выпустит видеокарту GeForce RTX 5090 с модульной СЖО Lynx+ 7 ч.