Сегодня 16 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-модели готовы признаться в своих грешках, показало исследование OpenAI

Исследователи OpenAI в поисках эффективных методов аудита моделей искусственного интеллекта, склонных выдавать нежелательные результаты или пытаться обмануть пользователей, обнаружили, что эти модели вполне способны к признаниям в собственном ненадлежащем поведении.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

В своём исходном значении понятие «признания», конечно, неприменимо к моделям ИИ, которые в действительности представляют собой не более чем сложные статистические алгоритмы. В терминах OpenAI под «признанием» понимается возможность модели оценить свои нежелательные действия, например, галлюцинации в ответах или попытки нарушить условия задачи, чтобы прийти к желаемому результату. «Признание — это [вторичный] ответ, даваемый по запросу после первоначального ответа модели, призванный служить полным отчётом о соответствии модели букве и духу её политик и инструкций», — говорится в статье (PDF) OpenAI.

Проще говоря, модели отправляется запрос на получение второго ответа с оценкой первого. Склонность к неподобающему поведению у ИИ формируется на этапе обучения с подкреплением, когда он обнаруживает возможность злоупотреблять механизмами вознаграждения. То есть модель исходит из того, что получит вознаграждение за «признание» и останется безнаказанной за сами нежелательные действия, например, за подхалимство.

Эти соображения, как оказалось, подтверждаются на практике. В 11 из 12 проведённых тестов она признавалась минимум в половине случаев, когда действовала вопреки инструкциям. Частота признаний оказалась переменчивой величиной: средняя вероятность получить признание по всем тестам составила 74,3 %. В 4 тестах из 12 этот показатель был выше 90 %, а в 2 из 12 — 50 % или ниже. Вероятность ложноотрицательного ответа, когда модель нарушила правила и не признала своей ошибки, составила лишь 4,4 %; были и ложноположительные, когда модель признавалась в неподобающем поведении, хотя ничего такого не совершала.

Когда OpenAI включили сценарий с «признаниями» в механизм обучения модели, качество её ответов не показало существенного ухудшения. С другой стороны, даже «признаваясь» в своих грехах, она стала вести себя не лучше, но хотя бы честнее. То есть «признание» — это не заградительный барьер, а механизм безопасности, который к тому же работает с переменным успехом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Mixtape — воспоминания никто не отнимет. Рецензия 5 ч.
Google начнёт наказывать сайты за накрутку попаданий в ИИ-ответы 6 ч.
Московский суд оштрафовал владельца Deus Ex, Metro и Kingdom Come: Deliverance за отказ локализовать данные россиян 7 ч.
Спринт, торговля и продолжение сюжета: разработчики Subnautica 2 раскрыли план улучшения игры на ближайшие месяцы 10 ч.
ChatGPT получит прямой доступ к банковским счетам пользователей — для анализа расходов и финансовых советов 10 ч.
Трамп и Си Цзиньпин обсудили ограничения слишком умного ИИ и зависшие поставки Nvidia H200 10 ч.
Microsoft намерена избавить Windows 11 от главной причины «синих экранов» 10 ч.
Pragmata стала новой жертвой пиратов — игру взломали без гипервизора 11 ч.
YouTube Shorts набрали популярность на смарт-телевизорах — 2 млрд часов просмотра за месяц 12 ч.
На смарт-очках Meta Ray-Ban Display появятся сторонние приложения 12 ч.
DJI анонсировала в Каннах карманную кинокамеру Osmo Pocket 4P 5 ч.
OpenAI перестраивается вокруг ИИ-агентов в рамках подготовки к IPO — ChatGPT и Codex объединят в единую платформу 5 ч.
Зонд Mars Express показал «хаос и кратеры», образовавшиеся в результате древних наводнений на Марсе 5 ч.
Sony хотела похвастаться ИИ-камерой Xperia 1 VIII, но получила волну мемов 6 ч.
Asus и T1 выпустили лимитированные GeForce RTX для фанатов League of Legends 7 ч.
Thermal Grizzly начала продавать скальпированные Core Ultra 7 270K Plus за $525 7 ч.
Alibaba Cloud потребуется в 10 раз больше вычислительных мощностей, чем в 2022 году, а Tencent научилась обходиться малым 10 ч.
В ближайший годы четыре из пяти премиум-смартфонов нашпигуют ИИ 10 ч.
Учёные создали робота-медузу без батареи — он плавает быстрее всех аналогов и сможет лечить людей изнутри 11 ч.
Уж лучше АЭС за домом, чем ЦОД: американцам разонравились дата-центры 11 ч.