Сегодня 25 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Бизнес раскритиковал идею введения платного доступа к госсервисам для юрлиц 9 ч.
Объявлена дата выхода Little Nightmares 3 — новый трейлер, 11 минут геймплея и предзаказ с приятным сюрпризом 9 ч.
Российская гиперконвергентная платформа vStack HCP получила крупное обновление 12 ч.
Продажи Rematch от создателей Sifu превысили миллион копий — раскрыта статистика игроков 12 ч.
Для Warhammer 40,000: Rogue Trader вышло сюжетное дополнение Lex Imperialis и большой патч 1.4, а в работе ещё более крупное обновление 13 ч.
Anthropic выиграла суд у издателей: обучать ИИ на купленных книгах законно, на пиратских — нет 13 ч.
Xbox скоро настигнет новая волна массовых увольнений — Microsoft проводит реорганизацию 14 ч.
Путин подписал закон о создании национального мессенджера 15 ч.
Новый геймплейный трейлер раскрыл дату выхода перезапуска Painkiller — в российском Steam открыт предзаказ 15 ч.
Заявка на успех: более миллиона человек уже добавили Resident Evil Requiem в список желаемого 18 ч.
Оборот российского рынка микроэлектроники может к 2030 году превысить триллион рублей 4 ч.
Суд приговорил криптоблогера Битмаму к семи годам колонии за мошенничество 4 ч.
Apple приняла официальное участие в китайской программе субсидирования продаж потребительской электроники 5 ч.
Fujitsu считает важным появление в Японии контрактного производителя передовых чипов Rapidus 5 ч.
Intel запустила обещанную волну увольнений — первыми под сокращение попали инженеры в Калифорнии 8 ч.
Gigabyte представила три версии GeForce RTX 5050, включая низкопрофильную — все с разгоном 8 ч.
Стараниями Китая мировые поставки носимых устройств подскочили на 10,5 % в первом квартале 8 ч.
Новая статья: Разрубить EUV-узел 9 ч.
MSI представила компактную GeForce RTX 5050 Shadow 2X OC с разгоном 9 ч.
Бизнес США единодушно предупредил Трампа: пошлины на чипы в 25 % обернутся хаосом 10 ч.