Сегодня 16 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-модели готовы признаться в своих грешках, показало исследование OpenAI

Исследователи OpenAI в поисках эффективных методов аудита моделей искусственного интеллекта, склонных выдавать нежелательные результаты или пытаться обмануть пользователей, обнаружили, что эти модели вполне способны к признаниям в собственном ненадлежащем поведении.

 Источник изображения: Igor Omilaev / unsplash.com

Источник изображения: Igor Omilaev / unsplash.com

В своём исходном значении понятие «признания», конечно, неприменимо к моделям ИИ, которые в действительности представляют собой не более чем сложные статистические алгоритмы. В терминах OpenAI под «признанием» понимается возможность модели оценить свои нежелательные действия, например, галлюцинации в ответах или попытки нарушить условия задачи, чтобы прийти к желаемому результату. «Признание — это [вторичный] ответ, даваемый по запросу после первоначального ответа модели, призванный служить полным отчётом о соответствии модели букве и духу её политик и инструкций», — говорится в статье (PDF) OpenAI.

Проще говоря, модели отправляется запрос на получение второго ответа с оценкой первого. Склонность к неподобающему поведению у ИИ формируется на этапе обучения с подкреплением, когда он обнаруживает возможность злоупотреблять механизмами вознаграждения. То есть модель исходит из того, что получит вознаграждение за «признание» и останется безнаказанной за сами нежелательные действия, например, за подхалимство.

Эти соображения, как оказалось, подтверждаются на практике. В 11 из 12 проведённых тестов она признавалась минимум в половине случаев, когда действовала вопреки инструкциям. Частота признаний оказалась переменчивой величиной: средняя вероятность получить признание по всем тестам составила 74,3 %. В 4 тестах из 12 этот показатель был выше 90 %, а в 2 из 12 — 50 % или ниже. Вероятность ложноотрицательного ответа, когда модель нарушила правила и не признала своей ошибки, составила лишь 4,4 %; были и ложноположительные, когда модель признавалась в неподобающем поведении, хотя ничего такого не совершала.

Когда OpenAI включили сценарий с «признаниями» в механизм обучения модели, качество её ответов не показало существенного ухудшения. С другой стороны, даже «признаваясь» в своих грехах, она стала вести себя не лучше, но хотя бы честнее. То есть «признание» — это не заградительный барьер, а механизм безопасности, который к тому же работает с переменным успехом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«КРИ официально возвращается»: летом в Москве впервые с 2013 года пройдёт конференция разработчиков игр 41 мин.
В Европе потребовали срочно оштрафовать Google за подыгрывание своим сервисам в поиске 2 ч.
Обновление Windows 11 заблокировало доступ к диску C на компьютерах Samsung 3 ч.
CD Projekt Red «совсем скоро» прокачает Cyberpunk 2077 для PS5 Pro — игра получит поддержку апскейлера PSSR 2 3 ч.
Anthropic удвоила лимиты Claude для всех пользователей, но с ограничениями 3 ч.
Классическая «Готика» спустя 25 лет выйдет на мобильных устройствах — пока только для iOS 4 ч.
«Лара заслуживает большего»: фанаты разгромили новый патч для Tomb Raider I-III Remastered, а оригинальные разработчики от него открестились 4 ч.
Сэм Альтман предложил платить за ИИ по счётчику — как за коммунальные услуги 5 ч.
OpenAI объяснила, почему реклама в ChatGPT появилась не везде и не у всех 6 ч.
iOS 27 может стать обновлением без громких новшеств — зато быстрее и стабильнее 6 ч.
От тысяч к десяткам миллионов: гонка ИИ разогнала спрос на углеродные кредиты среди техногигантов 45 мин.
Creative выпустила звуковую карту Sound Blaster Audigy FX Pro — звук 32 бит / 384 кГц и 7.1 для ПК 3 ч.
Vivo и iQOO анонсировали повышение цен на смартфоны, но не все 4 ч.
Apple представила наушники AirPods Max 2 с улучшенным шумоподавлением и переводом в реальном времени за $549 4 ч.
MSI рассказала, кто виноват в дефиците видеокарт, и предупредила о росте цен на игровое железо на 15–30 % 5 ч.
Meta потратит $27 млрд на облачные услуги Nebius Аркадия Воложа в ближайшие пять лет 5 ч.
Foxconn рассчитывает на рекордную выручку благодаря буму ИИ 5 ч.
Судья назвала иск Маска к OpenAI на $134 млрд «взятым с потолка», но исход дела определят присяжные 6 ч.
Micron построит вторую фабрику по производству памяти на Тайване рядом с купленной у PSMC 9 ч.
Рынок СХД в 2025 году достиг рекордного объёма в $33 млрд 11 ч.