Сегодня 13 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Хоррор об ужасах долговой ямы CloverPit получил хардкорный режим и достиг миллиона проданных копий — разработчики «в полном шоке» 4 ч.
OpenAI представила GPT-5.1 — ChatGPT станет умнее и приятнее в общении 4 ч.
Разработчики Vampire: The Masquerade — Bloodlines 2 рассказали, как будут улучшать игру до конца 2025 года 6 ч.
Российский корпоративный центр сертификации SafeTech CA получил масштабное обновление 7 ч.
«Безмерно благодарны вам»: продажи Kingdom Come: Deliverance 2 взяли новую высоту 8 ч.
Nintendo показала первый трейлер фильма «Галактика Супер Марио в кино» — фанаты в восторге 9 ч.
Google подала в суд на китайскую киберпреступную группировку — она обманула более миллиона человек в 120 странах 9 ч.
Большинство людей оказалось неспособно различить музыку, созданную ИИ и человеком 9 ч.
Утечка подтвердила научно-фантастический соревновательный шутер Project Scout от Ubisoft — первые скриншоты и подробности 10 ч.
Google ответит в суде за тайную слежку за пользователями через ИИ-помощника Gemini 11 ч.
Новая статья: Обзор и тестирование стильного корпуса 1stplayer GM7: сталь, пластик, два стекла 4 ч.
Valve представила игровой контроллер Steam Controller с трекпадами и магнитными стиками 4 ч.
От ИИ ЦОД до роботов: AMD анонсировала долгосрочную стратегию роста 4 ч.
Valve представила Steam Frame — VR-шлем с фовеальным рендерингом и поддержкой всей библиотеки Steam 5 ч.
Kioxia выпустила SSD Exceria Basic PCIe 4.0 — до 2 Тбайт и до 7300 Мбайт/с 5 ч.
Все роботы с ИИ провалили тесты на безопасность для человека 5 ч.
МТС ускорит отключение 3G — россияне почти перестали использовать смартфоны без LTE 5 ч.
Even Realities представили смарт-очки Even G2 и смарт-кольцо R1 для управления ими 6 ч.
В Париже открылась фотовыставка «Мир, я и ты» — на ней вручили награды победителям фотоконкурса Huawei Xmage Awards 2025 8 ч.
Акции AMD взлетели на 10 %: Лиза Су убедила инвесторов, что расходы на ИИ — «правильная ставка» 8 ч.