Сегодня 12 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Doom: The Dark Ages по ошибке вышла в Steam раньше времени, но не для всех 19 мин.
«Давайте нам деньги и вычислительные ресурсы и не путайтесь под ногами»: OpenAI и Microsoft пытаются договориться о продолжении сотрудничества на фоне роста амбиций стартапа 2 ч.
Календарь релизов — 12–18 мая: Doom: The Dark Ages, The Precinct и Preserve 2 ч.
Remedy анонсировала закрытое тестирование шутера FBC: Firebreak по мотивам Control — сроки, системные требования, доступный контент 2 ч.
«Вот как обеспечить игре жизнь на долгие годы»: разработчики Warhammer 40,000: Space Marine 2 открыли моддерам доступ к официальному редактору 3 ч.
Nvidia выпустила драйвер GeForce с поддержкой Doom: The Dark Ages 4 ч.
Вышла новая версия песочницы Kaspersky Research Sandbox 3.0 с расширенными возможностями для ИБ-специалистов 4 ч.
Смартфоны Honor 400 смогут анимировать фото с помощью ИИ-генератора от Google 5 ч.
Датамайнер рассекретил планы Rockstar на ремастеры GTA IV и Max Payne 3 5 ч.
Основатель Amazon вложит в бывший ИИ-проект «Яндекса» $72 млн 6 ч.
Google и Elementl реализуют в США три 600-МВт атомных проекта 45 мин.
Western Digital инвестирует в технологию вечного хранения данных на керамике Cerabyte 2 ч.
Оперативная память скоро подорожает: Samsung подняла контрактные цены на DRAM 4 ч.
Космический телескоп «Джеймс Уэбб» показал полярное сияние на Юпитере — в сотни раз ярче, чем на Земле 4 ч.
CoreWeave всего через несколько недель после IPO захотела взять в долг ещё $1,5 млрд 5 ч.
Облако.ру предлагает ИИ-системы, которые позволят запускать даже мощные ИИ-модели 5 ч.
Apple поднимет цены на iPhone, но пока не придумала, чем это объяснить 6 ч.
Акции техногигантов подскочили после приостановки тарифов между США и Китаем 6 ч.
Nvidia негласно подняла цены на все чипы: GeForce подорожали на 5–10 %, а ИИ-ускорители — на 10–15 % 6 ч.
Малайзия — это не просто ещё одна точка на карте. 5 причин, почему стоит выбрать серверы именно там 6 ч.