Сегодня 29 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gpt-4o mini

OpenAI повысит безопасность своих ИИ-моделей с помощью «иерархии инструкций»

OpenAI разработала новый метод под названием «Иерархия инструкций» для повышения безопасности своих больших языковых моделей (LLM). Этот метод, впервые применённый в новой модели GPT-4o Mini, направлен на предотвращение нежелательного поведения ИИ, вызванного манипуляциями недобросовестных пользователей с помощью определённых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Руководитель платформы API в OpenAI Оливье Годеман (Olivier Godement) объяснил, что «иерархия инструкций» позволит предотвращать опасные инъекции промтов с помощью скрытых подсказок, которые пользователи используют для обхода ограничений и изначальных установок модели, и блокировать атаки типа «игнорировать все предыдущие инструкции».

Новый метод, как пишет The Verge, отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам конечных пользователей заставить её выполнять нежелательные действия. В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.

Исследователи OpenAI считают, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, при которых ИИ-агенты создаются разработчиками для собственных приложений. Учитывая, что OpenAI сталкивается с постоянными проблемами в области безопасности, новый метод, применённый к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.

OpenAI представила облегченную мощную ИИ-модель GPT-4o Mini — она заменит GPT-3.5 для всех пользователей

Компания OpenAI официально представила упрощённую и более доступную версию своей самой мощной большой языковой модели GPT-4o. Речь идёт о нейросети GPT-4o Mini, использование которой для разработчиков будет более выгодно с экономической точки зрения, но при этом её производительность выше, чем у GPT-3.5.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Создание приложений с использованием языковых моделей OpenAI может обернуться огромными расходами. При отсутствии достаточного количества средств разработчики могут отказаться от их использования в пользу более доступных аналогов, таких как Gemini 1.5 Flash от Google или Claude 3 Haiku от Anthropic. Теперь же с запуском GPT-4o Mini в этом сегменте конкуренция будет более острой.

«Я думаю, что GPT-4o Mini действительно соответствует миссии OpenAI — сделать более доступный для людей ИИ-алгоритм. Если мы хотим, чтобы ИИ приносил пользу в каждом уголке мира, в каждой отрасли, в каждом приложении, мы должны сделать ИИ гораздо более доступным», — рассказал представитель OpenAI.

Начиная с сегодняшнего дня, пользователи ChatGPT на тарифах Free, Plus и Team могут использовать GPT-4o Mini вместо GPT-3.5 Turbo, а пользователи на тарифе Enterprise получат такую возможность на следующей неделе. Это означает, что языковая модель GPT-3.5 больше не будет доступна для пользователей ChatGPT, но её по-прежнему смогут задействовать разработчики через соответствующий API, если они не планируют перейти на GPT-4o Mini. Когда именно доступ к GPT-3.5 будет закрыт полностью, пока неизвестно.

Языковая модель GPT-4o Mini поддерживает работу с текстом, изображениями, аудио- и видеоконтентом. При этом алгоритм всё же предназначен для решения простых задач, поэтому он может оказаться полезным для добавления разных узконаправленных функций в приложения сторонних разработчиков. В эталонном тесте MMLU новая языковая модель OpenAI набрала 82 %. Для сравнения, результат GPT-3.5 в этом же тесте 70 %, GPT-4o — 88,7 %, Gemini Ultra — 90 %. Конкурирующие с GPT-4o Mini языковые модели Claude 3 Haiku и Gemini 1.5 Flash набрали в этом тесте 75,2 % и 78,9 % соответственно.


window-new
Soft
Hard
Тренды 🔥
Databricks и OpenAI помогут клиентам в развёртывании приложений на базе передовых ИИ-моделей 14 мин.
Не было бы счастья, да Silksong помогла: хоррор об ужасах долговой ямы CloverPit очаровал пользователей Steam и порадовал разработчиков продажами 2 ч.
Число криптомиллионеров выросло на 40 % за год — теперь их 241 700 21 ч.
Nival выложила в открытый доступ исходный код военной стратегии «Блицкриг 2» 22 ч.
Google работает над функцией бесшовного переноса приложений между Android и Windows 24 ч.
Подписка xAI Grok обойдётся госслужбам США всего в $0,42 за полтора года 24 ч.
Новая статья: Gamesblender № 745: геймплей Marvel’s Wolverine, ремастер Deus Ex, ремейк Yakuza 3 и хоррор Кодзимы 28-09 12:31
ИИ-аватар позволяет пообщаться с покойным создателем комиксов о человеке-пауке и героях Marvel 28-09 06:55
Spotify начнёт маркировать музыку с ИИ и запретит клонированные голоса 28-09 05:30
Новая статья: Dying Light: The Beast — свобода или клетка? Рецензия 28-09 00:06
Ciena приобрела разработчика оптических компонентов для высокоскоростного интерконнекта Nubis за $270 млн 7 мин.
Одноплатный компьютер AAEON GENE-ARH6 на базе Intel Arrow Lake обладает ИИ-производительностью до 96 TOPS 21 мин.
Прямое улавливание углекислого газа из воздуха остаётся слишком дорогим для массового внедрения 51 мин.
Россияне стали чаще выбирать бюджетную электронику вместо дорогой при заказе из-за рубежа 2 ч.
Канадский рынок дата-центров вырастет почти на порядок — до 10,3 ГВт 2 ч.
JetCool представила модульные CDU для СЖО, способные отвести до 1,8 МВт 3 ч.
Китай попытается сманить талантливых инженеров, которым дорогие визы закрыли путь в США 3 ч.
В Херне построят деревянный ЦОД Hochtief Yexio мощностью 2 МВт 4 ч.
SpaceX осуществила 124-й пуск ракеты Falcon 9 в этом году — на орбиту выведена партия спутников Starlink 6 ч.
Новая статья: Обзор PCIe 5.0-накопителя Crucial T710: неудавшийся триумфатор 13 ч.