Сегодня 16 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-модели готовы признаться в своих грешках, показало исследование OpenAI

Исследователи OpenAI в поисках эффективных методов аудита моделей искусственного интеллекта, склонных выдавать нежелательные результаты или пытаться обмануть пользователей, обнаружили, что эти модели вполне способны к признаниям в собственном ненадлежащем поведении.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

В своём исходном значении понятие «признания», конечно, неприменимо к моделям ИИ, которые в действительности представляют собой не более чем сложные статистические алгоритмы. В терминах OpenAI под «признанием» понимается возможность модели оценить свои нежелательные действия, например, галлюцинации в ответах или попытки нарушить условия задачи, чтобы прийти к желаемому результату. «Признание — это [вторичный] ответ, даваемый по запросу после первоначального ответа модели, призванный служить полным отчётом о соответствии модели букве и духу её политик и инструкций», — говорится в статье (PDF) OpenAI.

Проще говоря, модели отправляется запрос на получение второго ответа с оценкой первого. Склонность к неподобающему поведению у ИИ формируется на этапе обучения с подкреплением, когда он обнаруживает возможность злоупотреблять механизмами вознаграждения. То есть модель исходит из того, что получит вознаграждение за «признание» и останется безнаказанной за сами нежелательные действия, например, за подхалимство.

Эти соображения, как оказалось, подтверждаются на практике. В 11 из 12 проведённых тестов она признавалась минимум в половине случаев, когда действовала вопреки инструкциям. Частота признаний оказалась переменчивой величиной: средняя вероятность получить признание по всем тестам составила 74,3 %. В 4 тестах из 12 этот показатель был выше 90 %, а в 2 из 12 — 50 % или ниже. Вероятность ложноотрицательного ответа, когда модель нарушила правила и не признала своей ошибки, составила лишь 4,4 %; были и ложноположительные, когда модель признавалась в неподобающем поведении, хотя ничего такого не совершала.

Когда OpenAI включили сценарий с «признаниями» в механизм обучения модели, качество её ответов не показало существенного ухудшения. С другой стороны, даже «признаваясь» в своих грехах, она стала вести себя не лучше, но хотя бы честнее. То есть «признание» — это не заградительный барьер, а механизм безопасности, который к тому же работает с переменным успехом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Одна голова хорошо, а две лучше: руководитель Treyarch покинул студию после 22 лет работы над Call of Duty 25 мин.
В «Яндекс Картах» появился надёжный пошаговый навигатор при нестабильном сигнале GPS 56 мин.
Teams научили отслеживать сотрудников через корпоративный Wi-Fi — Microsoft уверяет, что это не слежка 2 ч.
Double Fine, Ninja Theory и другие студии Xbox тоже оказались под угрозой закрытия, но продолжают борьбу за выживание 2 ч.
Индия заблокировала Telegram перед пересдачей аналога ЕГЭ, опасаясь утечек заданий 3 ч.
Fox купила конкурента Netflix за $22 млрд 3 ч.
Microsoft 365 Copilot приспособили для кражи корпоративных данных в хитроумной цепочке 3 ч.
Сюжетная ролевая игра The Life and Suffering of Prince Jerian получила дату выхода, новый трейлер и демоверсию в Steam 3 ч.
Microsoft ускорит встроенные в Windows 11 приложения 4 ч.
Xbox закроет студию Compulsion Games и продолжит увольнять топ-менеджеров в рамках «перезагрузки» 4 ч.
Турция вложится в ИИ, ЦОД, облака и обучение в рамках программы AI Action Plan 45 мин.
Документы раскрыли характеристики Tesla Cybercab — роботакси проедет до 669 км на одной зарядке 57 мин.
Австралийская SharonAI Holdings купит 40 тыс. ускорителей GB300 и поделится с NVIDIA выручкой от ИИ-облака 2 ч.
TSMC получила от IMEC техпроцесс для массового выпуска 2D-транзисторов на 300-мм пластинах 2 ч.
Японская Nidec разработала 300-кВт внутристоечный CDU 2 ч.
Представлен смартфон Honor X70 Pro Max — большой экран, защита IP69K и батарея на 8560 мА·ч за $295 2 ч.
Qualcomm готовится к миру без приложений и разрабатывает более 40 ИИ-устройств 2 ч.
Чистые убытки OpenAI выросли в восемь раз в прошлом году и достигли $38,5 млрд 3 ч.
DJI представила карманную камеру Osmo Pocket 4P с двумя объективами, «киношными» функциями Ronin и стабилизатором 3 ч.
IMEC создала первый квантовый чип на High-NA EUV — квантовые компьютеры готовят к массовому производству 4 ч.