Сегодня 05 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Ремейк «Готики» вышел на ПК и консолях — критики возвращение легендарной RPG не оценили 14 мин.
Google исправила рекордные 429 уязвимостей в Chrome за раз — включая 22 критические 3 ч.
Аша Шарма подтвердила, что Xbox нужны эксклюзивы, но есть нюанс 3 ч.
Google начала экспериментировать с показом результатов поиска в Chrome сразу в режиме ИИ 3 ч.
Следующая ИИ-модель OpenAI разрабатывается другой ИИ-моделью — сверхинтеллект близок как никогда 3 ч.
Вредоносный мод для Minecraft заразил 116 000 компьютеров и продавал доступ к веб-камерам жертв 3 ч.
OpenAI согласилась предоставлять властям США свои новые ИИ-модели на проверку 5 ч.
ИИ-агент OpenAI Codex помог раскрыть атаку HTTP/2 Bomb: всего один компьютер может вывести из строя целый сервер 6 ч.
Опасный ИИ Anthropic неожиданно помог компании наладить диалог с Белым домом 6 ч.
Apple объяснила удаление мессенджера Max из App Store санкциями 7 ч.
В российской части МКС обнаружены две утечки воздуха — одну уже заделали 2 ч.
Thermal Grizzly показала водоблок для скальпированных процессоров — с алмазными пластинами за €1500 3 ч.
Роботакси Waymo показало себя как неожиданно удобный транспорт для бегства с места преступления 3 ч.
Репортаж со стенда Apacer на Computex 2026: память DDR5-9200, скоростные SSD с вентиляторами и не только 4 ч.
Илон Маск заговорил о 100 000 аппаратов Starlink на орбите — чтобы ускорить спутниковый интернет в 100 раз 4 ч.
Phison представила SSD-контроллер с поддержкой PCIe 6.0 6 ч.
Правительство США планирует выделить $700 млн на поддержку угольной энергетики для ИИ-инфраструктуры 6 ч.
Молния проникла в квартиру через интернет-кабель и уничтожила ПК и роутер 6 ч.
Google научила смартфоны следить за пульсом человека через фронтальную камеру 6 ч.
NASA упростит разработку ядерного корабля для полёта к Марсу, чтобы успеть к запуску в 2028 году 6 ч.