Сегодня 23 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: INDUSTRIA 2 — черновая отделка. Рецензия 5 ч.
«Горькое разочарование»: амбициозная пошаговая тактика Warhammer 40,000: Mechanicus 2 стартовала в Steam со «смешанными» отзывами 7 ч.
Ролевой шутер Witchfire от экс-разработчиков Painkiller и Bulletstorm скоро получит перевод на русский — подробности The Revelations Update 8 ч.
«Болотный лагерь выглядит великолепно»: 20 минут нового геймплея ремейка «Готики» впечатлили фанатов оригинальной игры 10 ч.
Cisco выяснила, почему безупречные на первый взгляд отчёты ИИ о киберинцидентах нельзя принимать на веру 10 ч.
Заряженное ностальгией и ужасами приключение Midnight Souls отправит искать любовь и бороться со стариками 11 ч.
Google назвала лучшие ИИ-модели для разработки Android-приложений — Gemini проиграл GPT 11 ч.
Сегодня исполнилось 16 лет первой покупке за биткоины — две пиццы теперь стоили бы $770 млн 14 ч.
Microsoft разрешит убирать раздражающую кнопку ИИ-помощника Copilot в Word, Excel и PowerPoint 14 ч.
Новый большой патч для Crimson Desert добавил детёнышей виверн и позволил Клиффу использовать дробовик 15 ч.
Anthropic на следующей неделе завершит привлечение $30 млрд, подняв капитализацию за пределы $900 млрд и обойдя OpenAI 13 мин.
Google обжаловала решение суда о «покупке» своему поиску места на iPhone 3 ч.
Tesla Cybercab оказался самым экономичным электромобилем в США, опередив соперников почти на треть 6 ч.
Китайские контрактные производители чипов начали поднимать цены на услуги, чтобы урвать свой кусок ИИ-пирога 6 ч.
Huawei придумала, как выпускать SSD на 122 Тбайт без передовой флеш-памяти 8 ч.
Huawei выпустила 122-Тбайт SSD с фирменной технологией DoB 8 ч.
Tesla отзывает тысячи электромобилей Model Y из-за вероятного отсутствия одной наклейки 10 ч.
Realme представила смарт-часы Watch S5 с 1,43-дюймовым AMOLED и автономностью до 20 дней за $80 11 ч.
Bosch поможет стартапу Humanoid выпускать человекоподобных роботов на ногах и колёсах 12 ч.
Creative представила звуковую карту Sound Blaster AE-X с поддержкой 32-битного звука на 384 кГц 12 ч.