Сегодня 15 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft завтра анонсирует «нечто важное» для Windows 6 мин.
Не просто порт, а «новая эра браузерного ретрогейминга»: энтузиасты реализовали веб-версию мультиплеера классической Doom 18 мин.
«Call of Duty существует только потому, что EA были мерзавцами»: босс Battlefield объяснил, как появился главный конкурент Battlefield 2 ч.
«Один из самых красивых городов во всём Тамриэле»: художник поразил фанатов реалистичным переосмыслением Скинграда из The Elder Scrolls IV: Oblivion 3 ч.
ChatGPT научится вести разговоры для взрослых, но только с проверенными взрослыми 4 ч.
Биткоин и золото движутся синхронно — корреляция вплотную подошла к историческому максимуму 4 ч.
От GTX 1060 до RTX 5080: разработчики Vampire: The Masquerade — Bloodlines 2 объявили полные системные требования игры 4 ч.
Ближе к Call of Duty, чем когда-либо: аналитики раскрыли ударные продажи Battlefield 6 5 ч.
Microsoft выпустила последний пакет обновлений для Windows 10 6 ч.
В Firefox появился ИИ-поиск Perplexity — теперь он доступен всем пользователям по всему миру 15 ч.
Broadcom представила первые в мире 800GbE-адаптеры Thor Ultra с поддержкой Ultra Ethernet для масштабных ИИ-кластеров 13 мин.
Квартальная выручка неооблаков выросла на 200 %, а в 2030 году она достигнет $180 млрд 39 мин.
«Пьяные матросы с долговыми расписками»: как OpenAI ищет $1 трлн, не предлагая ничего взамен 2 ч.
Oracle запустит в 2026 году ИИ-кластер на базе 50 тыс. AMD Instinct MI450 2 ч.
Учёные создали первую в мире ПЛИС для кремниевой фотоники — она сулит революцию в квантовой и классической электронике 3 ч.
«Оскорбление техноэнтузиастов»: Google Pixel 10 Pro Fold сгорел во время испытаний на прочность 4 ч.
ASML предупредила о грядущем обвале выручки в Китае — но ИИ-бум должен компенсировать потери 5 ч.
DJI не согласна с Пентагоном: компания обжаловала решение суда о военных связях с Китаем 5 ч.
Intel представила GPU-ускоритель Crescent Island для ИИ-инференса 5 ч.
Brookfield потратит до $5 млрд на поддержку внедрения твердооксидных топливных элементов Bloom Energy в ИИ ЦОД 6 ч.