Сегодня 27 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-модели готовы признаться в своих грешках, показало исследование OpenAI

Исследователи OpenAI в поисках эффективных методов аудита моделей искусственного интеллекта, склонных выдавать нежелательные результаты или пытаться обмануть пользователей, обнаружили, что эти модели вполне способны к признаниям в собственном ненадлежащем поведении.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

В своём исходном значении понятие «признания», конечно, неприменимо к моделям ИИ, которые в действительности представляют собой не более чем сложные статистические алгоритмы. В терминах OpenAI под «признанием» понимается возможность модели оценить свои нежелательные действия, например, галлюцинации в ответах или попытки нарушить условия задачи, чтобы прийти к желаемому результату. «Признание — это [вторичный] ответ, даваемый по запросу после первоначального ответа модели, призванный служить полным отчётом о соответствии модели букве и духу её политик и инструкций», — говорится в статье (PDF) OpenAI.

Проще говоря, модели отправляется запрос на получение второго ответа с оценкой первого. Склонность к неподобающему поведению у ИИ формируется на этапе обучения с подкреплением, когда он обнаруживает возможность злоупотреблять механизмами вознаграждения. То есть модель исходит из того, что получит вознаграждение за «признание» и останется безнаказанной за сами нежелательные действия, например, за подхалимство.

Эти соображения, как оказалось, подтверждаются на практике. В 11 из 12 проведённых тестов она признавалась минимум в половине случаев, когда действовала вопреки инструкциям. Частота признаний оказалась переменчивой величиной: средняя вероятность получить признание по всем тестам составила 74,3 %. В 4 тестах из 12 этот показатель был выше 90 %, а в 2 из 12 — 50 % или ниже. Вероятность ложноотрицательного ответа, когда модель нарушила правила и не признала своей ошибки, составила лишь 4,4 %; были и ложноположительные, когда модель признавалась в неподобающем поведении, хотя ничего такого не совершала.

Когда OpenAI включили сценарий с «признаниями» в механизм обучения модели, качество её ответов не показало существенного ухудшения. С другой стороны, даже «признаваясь» в своих грехах, она стала вести себя не лучше, но хотя бы честнее. То есть «признание» — это не заградительный барьер, а механизм безопасности, который к тому же работает с переменным успехом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ИИ уличили в расизме при найме на работу 25 мин.
Sony без предупреждения сняла с продажи один из первых эксклюзивов PS5 48 мин.
Безумству храбрых: французский инженер троллит IT-гигантов сатирическими ИИ-нарезками с индюком 2 ч.
Apple усложнит жизнь уличным ворам — iPhone будет автоматически блокироваться, если его вырвут из рук 2 ч.
Пользователи бегут от Google из-за ИИ — поисковик DuckDuckGo резко прирос аудиторией 2 ч.
Сайт для оформления виз в Великобританию случайно опубликовал десятки тысяч паспортов и селфи заявителей 2 ч.
CD Projekt Red в разгар слухов о третьем дополнении к The Witcher 3: Wild Hunt анонсировала юбилейный стрим по «Кровь и вино» 3 ч.
Серверы с ИИ-агентами по всему миру оказались под угрозой из-за ошибки фреймворка Starlette 7 ч.
Предустановленное ПО в смартфонах Motorola начало подменять партнёрские ссылки на Amazon 7 ч.
Верховный суд РФ разрешил бывшим сотрудникам Oracle оставить себе миллионные выходные пособия 13 ч.
Китай перейдёт на уличные камеры с ИИ для продвинутой слежки за населением 7 мин.
Минцифры расширило список данных о россиянах, которые операторы должны передавать силовикам 22 мин.
Создание базы NASA на Луне начнётся с трёх миссий, которые состоятся в этом году 37 мин.
Роботакси Tesla сдуваются: на линии осталось всего 20 машин, несмотря на громкие обещания Маска 46 мин.
Дефицит памяти взвинтит цены на смартфоны — рынок откатится к уровню 2013 года 2 ч.
РТК-ЦОД запустил сервис Unit-colocation в «Облаке КИИ» 2 ч.
AT&T судится с властями Калифорнии, которые запрещают ей заменить «медь» на «оптику» и сэкономить миллиарды долларов 3 ч.
Работники Samsung поддержали спорную сделку с бонусами до $428 тысяч производителям памяти 5 ч.
Micron Technology преодолела рубеж в $1 трлн капитализации на волне ИИ-бума 7 ч.
Qualcomm и ByteDance заключили соглашение о поставках специализированных ASIC для ИИ 7 ч.