Сегодня 24 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Если я говорю, что напишу, то сделаю это, в отличие от Джорджа Мартина»: Анджей Сапковский пообещал фанатам «Ведьмака» новые книги 35 мин.
Российская гиперконвергентная платформа vStack HCP получила крупное обновление 3 ч.
Продажи Rematch от создателей Sifu превысили миллион копий — раскрыта статистика игроков 3 ч.
Для Warhammer 40,000: Rogue Trader вышло сюжетное дополнение Lex Imperialis и большой патч 1.4, а в работе ещё более крупное обновление 4 ч.
Anthropic выиграла суд у издателей: обучать ИИ на купленных книгах законно, на пиратских — нет 4 ч.
Госдума РФ приняла закон об обязательной установке Rustore на iPhone и вообще все смартфоны 5 ч.
Xbox скоро настигнет новая волна массовых увольнений — Microsoft проводит реорганизацию 5 ч.
Путин подписал закон о создании национального мессенджера 6 ч.
Новый геймплейный трейлер раскрыл дату выхода перезапуска Painkiller — в российском Steam открыт предзаказ 6 ч.
Заявка на успех: более миллиона человек уже добавили Resident Evil Requiem в список желаемого 9 ч.
Бизнес США единодушно предупредил Трампа: пошлины на чипы в 25 % обернутся хаосом 6 мин.
Смарт-очки будущего не обожгут голову: xMEMS разработала для них сверхтонкий кулер без вентиляторов и шума 3 ч.
Google представила ИИ для роботов, который сможет работать без интернета и завязывать шнурки 3 ч.
Meta выпустила VR-гарнитуру Quest 3S Xbox Edition с особым дизайном и расширенной комплектацией за $400 5 ч.
Tecno выпустила бюджетный смартфон Spark Go 2 с современным дизайном за $80 6 ч.
Выяснилась причина крушения частного японского лунного модуля Resilience — подвёл лазерный дальномер 6 ч.
Нью-Йорк построит гигаваттную АЭС для ИИ ЦОД и других отраслей — крупнейший в стране проект за 15 лет 7 ч.
Xiaomi представила 33-Вт зарядку со встроенным пауэрбанком на 5000 мА·ч дешевле $30 7 ч.
400-кВт ЦОД Deep Green будет отапливать бассейн развлекательного центра в Манчестере 8 ч.
OpenAI ищет управляющего энергетической политикой 8 ч.