Сегодня 14 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Разработчики The Texas Chain Saw Massacre свернут поддержку игры, так как она «полностью реализовала свой потенциал» 31 мин.
Несмотря на замедление, YouTube в четыре раза обошёл VK по размещению рекламы у блогеров в России 2 ч.
Фанаты разглядели на скриншоте GTA VI ребёнка — до сих пор в играх серии детей не было 2 ч.
Новые атаки Spectre-v2 легко обходят защиту CPU Intel и крадут данные из ядра 7 ч.
TikTok научился оживлять фотографии с помощью ИИ-функции AI Alive 12 ч.
Google превратила приложение «Найти устройство» в Find Hub и расширила его функциональность 12 ч.
Google анонсировала появление ИИ-ассистента Gemini в автомобилях и телевизорах 12 ч.
В Android появятся новые средства защиты от телефонных мошенников 13 ч.
«Ну вот и GTA VI наконец вышла»: криминальная песочница The Precinct обрадовала игроков на релизе 13 ч.
Apple представила «музыкальную терапию» — коллекцию Lo-Fi-треков для работы, учёбы и сна 14 ч.
Окно в облака: Microsoft подготовила виртуальный тур по дата-центру компании 2 ч.
После череды провалов SpaceX провела особенно тщательные огневые испытания Starship перед девятым полётом 2 ч.
Повышенные пошлины обернутся для Sony потерей в $700 млн уже в этом году 2 ч.
Трамповские пошлины чуть не сорвали подготовку к выпуску Cybercab, но скоро Tesla восстановит поставки запчастей из Китая 2 ч.
AMD столкнулась со слабым спросом на ИИ-ускорители Instinct MI325X 2 ч.
Moody’s предупреждает о рисках перенасыщения рынка ИИ ЦОД 3 ч.
Власти США запретили третьим странам использовать китайские ускорители Huawei 4 ч.
Panasonic представила полнокадровую беззеркальную камеру Lumix S1 II — мощную, но дорогую 4 ч.
Nvidia разрешили поставить в Саудовскую Аравию сотни тысяч ИИ-чипов — благосостояние Хуанга достигло $120 млрд 7 ч.
Новый химсостав батарей поможет электрокарам GM проезжать 650 км без подзарядки и сделает их безопаснее 11 ч.