Сегодня 06 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-модели готовы признаться в своих грешках, показало исследование OpenAI

Исследователи OpenAI в поисках эффективных методов аудита моделей искусственного интеллекта, склонных выдавать нежелательные результаты или пытаться обмануть пользователей, обнаружили, что эти модели вполне способны к признаниям в собственном ненадлежащем поведении.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

В своём исходном значении понятие «признания», конечно, неприменимо к моделям ИИ, которые в действительности представляют собой не более чем сложные статистические алгоритмы. В терминах OpenAI под «признанием» понимается возможность модели оценить свои нежелательные действия, например, галлюцинации в ответах или попытки нарушить условия задачи, чтобы прийти к желаемому результату. «Признание — это [вторичный] ответ, даваемый по запросу после первоначального ответа модели, призванный служить полным отчётом о соответствии модели букве и духу её политик и инструкций», — говорится в статье (PDF) OpenAI.

Проще говоря, модели отправляется запрос на получение второго ответа с оценкой первого. Склонность к неподобающему поведению у ИИ формируется на этапе обучения с подкреплением, когда он обнаруживает возможность злоупотреблять механизмами вознаграждения. То есть модель исходит из того, что получит вознаграждение за «признание» и останется безнаказанной за сами нежелательные действия, например, за подхалимство.

Эти соображения, как оказалось, подтверждаются на практике. В 11 из 12 проведённых тестов она признавалась минимум в половине случаев, когда действовала вопреки инструкциям. Частота признаний оказалась переменчивой величиной: средняя вероятность получить признание по всем тестам составила 74,3 %. В 4 тестах из 12 этот показатель был выше 90 %, а в 2 из 12 — 50 % или ниже. Вероятность ложноотрицательного ответа, когда модель нарушила правила и не признала своей ошибки, составила лишь 4,4 %; были и ложноположительные, когда модель признавалась в неподобающем поведении, хотя ничего такого не совершала.

Когда OpenAI включили сценарий с «признаниями» в механизм обучения модели, качество её ответов не показало существенного ухудшения. С другой стороны, даже «признаваясь» в своих грехах, она стала вести себя не лучше, но хотя бы честнее. То есть «признание» — это не заградительный барьер, а механизм безопасности, который к тому же работает с переменным успехом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Европе создали Euro-Office — пакет офисных приложений на базе кода OnlyOffice 53 мин.
Netflix научил собственную ИИ-модель без следов удалять объекты из видео и правдоподобно перестраивать сцену 6 ч.
Microsoft инвестирует в развитие ИИ-инфраструктуры Японии $10 млрд 11 ч.
LinkedIn скрытно собирает данные о ПО, установленном на компьютерах пользователей соцсети 12 ч.
Новая статья: Grime 2 — истязание на любителя. Рецензия 24 ч.
Новая статья: Gamesblender № 770: релиз DLSS 4.5, Синдзи Миками и авторы Stellar Blade, почти конец Eidos Montreal 04-04 23:32
Энтузиаст установил Windows 3.1x на компьютер 2025 года — и она заработала c Ryzen 9 9900X и RTX 5060 Ti 04-04 18:58
Microsoft принудительно обновит до Windows 11 25H2 компьютеры с более старыми версиями ОС 04-04 15:10
В руководстве OpenAI провели очередные кадровые перестановки — частично вынужденные 04-04 14:05
Nvidia показала нейронное сжатие текстур: потребление видеопамяти упало почти в 7 раз 04-04 14:04
Fujitsu планирует выпуск 1,4-нм NPU для ИИ-систем 11 ч.
Владельцы компьютеров Mac с чипами M-серии смогут использовать внешние видеокарты AMD и Nvidia 12 ч.
Американские ИИ-компании не смогут запустить в этом году более 30 % дата-центров из-за дефицита электроэнергии 17 ч.
В условиях дефицита памяти портативная игровая консоль Lenovo Legion Go 2 подорожала до полутора раз 17 ч.
В Китае введут строгий стандарт безопасности для пауэрбанков 17 ч.
NASA впервые разрешило астронавтам взять на борт iPhone в рамках лунной миссии Artemis II 18 ч.
Сразу после старта лунной миссии Трамп предложил сократить бюджет NASA на 23 % 19 ч.
Обновлённый RedMagic 11 Pro показал достойный FPS в играх для ПК класса AAA 04-04 17:02
ИИ на селе: NetApp и NTT протестировали геораспределённое обучение LLM 04-04 15:28
Стартап CavilinQ получил $8,8 млн на разработку квантового интерконнекта для объединения квантовых компьютеров 04-04 14:33