Сегодня 15 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI: ИИ бесполезно наказывать за ложь — он начинает хитрить ещё больше

Галлюцинации, то есть заведомо неверные ответы, которые иногда дают модели искусственного интеллекта, стали одной из основных проблем всей отрасли — из-за этого некоторые граждане вообще отказываются пользоваться ИИ. Избавиться от таких сбоев может оказаться сложнее, чем предполагалось ранее, выяснили исследователи OpenAI.

 Источник изображения: openai.com

Источник изображения: openai.com

Учёные компании OpenAI опубликовали результаты исследования, в котором описали свои попытки наладить управление сложными, в том числе рассуждающими, моделями ИИ, чтобы не допустить их выхода за установленные рамки. Исследователи применяли уникальные стратегии и методы, в том числе наказания за вредоносные действия и попытки обмануть пользователя. В проекте использовалась, помимо прочего, некая созданная OpenAI, но не вышедшая на рынок модель ИИ, которой поручали различные задачи — их выполнение можно было облегчить, обманув пользователя или отбросив некоторые действия.

Результат обучения модели во многом зависит от этапа обучения с подкреплением, когда за выполнение команды или генерацию правильного ответа она получает вознаграждение. Моделям ИИ свойственно пытаться получить вознаграждение посредством манипуляций, в том числе нарушая некоторые правила и рекомендации, чтобы добиться желаемого результата. Исследователи надеялись, что смогут выявить лазейки и лучше понять поведение ИИ, отслеживая цепочку её рассуждений, но это не помогло. Попытки оптимизировать цепочку рассуждений напрямую, то есть отдать команду не обходить инструкции, дают лишь краткосрочный эффект, установили учёные: «это не устраняет всё нежелательное поведение и может привести к тому, что модель станет скрывать свои истинные намерения».

Авторам проекта пришлось признать, что механизмы мониторинга моделей «хрупки». Строгий надзор за цепочкой рассуждений может побудить ИИ скрывать свои ошибки, чтобы обеспечить себе вознаграждение в обход ограничений. Для наблюдения за испытуемой моделью при выполнении заданий по написанию программного кода использовалась коммерческая GPT-4o — подопытная же допускала небрежности и открыто признавала в цепочке рассуждений, что делала это для получения вознаграждения; например, она преждевременно завершала выполнение некоторых программ. После этого исследователи попытались наказать модель, но эффект от этого оказался недолговечным: в цепочке рассуждений оставались признаки попытки получить вознаграждение обходными путями и дать неправильный ответ. То есть она нашла способ скрывать свои мотивы от контролирующего ИИ.

В этой связи остаётся неясным, готов ли мир к ИИ уровня человека, если проблема сохранится, и вмешиваться человек уже не сможет. Исследователи выразили надежду, что в будущем появятся способы оказывать влияние на модели через их цепочку рассуждений без обмана и скрытых тактик — они предлагают сделать методы оптимизации менее навязчивыми и прямолинейными.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Яндекс» научил «Алису» рассуждать, работать с файлами, говорить по-английски, изучать мир и заниматься с детьми 32 мин.
Япония предписала Google прекратить навязывание своих приложений производителям смартфонов 3 ч.
Obsidian рассказала о широте ролевых возможностей в The Outer Worlds 2 — игроки смогут отыгрывать серийного убийцу и не только 4 ч.
Датамайнер рассказала о самом большом неиспользованном боссе в играх FromSoftware — он мог появиться в Sekiro: Shadows Die Twice 4 ч.
В деле об отделении Instagram и WhatsApp от Meta появилась веская улика — компрометирующее письмо Цукерберга от 2012 года 4 ч.
ИИ-модели Gemini позволили анализировать снимки в «Google Фото», но пока не у всех пользователей 4 ч.
«Абсолютно завораживающий опыт»: эксперт Digital Foundry протестировал Cyberpunk 2077 на Nintendo Switch 2 5 ч.
К Apple подали ещё два иска за невыполненные обещания по ИИ-функциям Apple Intelligence 6 ч.
Apple будет анализировать переписки пользователей на iPhone, iPad и Mac для улучшения своего ИИ 7 ч.
Правительство РФ определилось, как будет изымать криптовалюту при уголовных делах 8 ч.
«Яндекс» представила «Станцию Мини 3 Про» с поддержкой Zigbee и подключаемыми модулями 19 мин.
«Рикор» представила Rikor Pro 7 — лёгкий и мощный ноутбук для бизнеса 24 мин.
Учёные МФТИ построили литограф для создания 3D-микроструктур с элементами размером 150 нм 28 мин.
«Яндекс» представила первую в России портативную умную колонку — «Станцию Стрит» с «Алисой» 33 мин.
«Яндекс» представила свою первую умную IP-камеру для дома 36 мин.
США призвали Европу сделать выбор между американскими и китайскими технологиями связи 39 мин.
ИБП Google Cloud стали причиной… шестичасового перебоя в электроснабжении одного из облачных регионов 2 ч.
TSMC решила выпускать прямоугольные чипы на квадратных кремниевых пластинах вместо круглых 3 ч.
Caviar представила OVI 8 — спецверсию iPhone в часть Александра Овечкина за 650 тыс. рублей 3 ч.
МТС придумала, как сэкономить на развёртывании сетей 5G 3 ч.