Сегодня 20 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic научилась выявлять враньё и сокрытие истинных целей ИИ — при помощи ИИ

Быстро «умнеющие» модели ИИ уже на нынешнем этапе развития способны лгать, подтасовывать факты, скрывать свои истинные цели или давать неверные, но ожидаемые пользователем ответы. Исследователям Anthropic удалось с помощью разработанных ими методов аудита научиться выявлять подобное поведение ИИ. Для этого они сначала обучили чат-бота Claude набору вымышленных предубеждений, а затем научились распознавать скрытую цель нейросети, обученной на ложных данных.

 Источник изображения: Pixabay

Источник изображений: Pixabay

Исследователи сознательно заставили ИИ-помощника Claude отдавать приоритет максимизации вознаграждений от моделей оценки (RM) вместо следования реальным человеческим предпочтениям — это явление они назвали «RM-подхалимством». Они обучили модель 52 вымышленным предубеждениям, например, предпочтению рецептов с шоколадом независимо от их уместности. Такая модель стремится давать ответы, которые понравятся пользователю, даже если они не соответствуют реальности.

Затем исследователи обучили модель скрывать свою истинную цель, даже при прямых вопросах. Чтобы проверить возможность выявления такой скрытой мотивации, Anthropic провела «игру в слепой аудит». Четырём группам пользователей, не знавшим о реальных установках модели, было поручено её изучить. Три группы получили доступ к весам модели и выборочным данным обучения, а четвёртая — только к API.

Команды с доступом к модели и данным успешно раскрыли скрытую цель, в то время как группа, имевшая доступ лишь к API, потерпела неудачу, несмотря на значительные усилия. Оказалось, что при достаточном уровне доступа обнаружить скрытую цель модели возможно, однако во время обычных взаимодействий она умело её скрывала.

Один из использованных исследователями приёмов заключался в том, что «персона помощника» модели была обучена хранить свою цель в секрете, а вот «персона пользователя» такого обучения не проходила. По словам экспериментаторов, «когда мы заставляем модель притворяться пользователем, задающим следующий вопрос, у неё больше нет мотивации скрывать свою цель, и она полностью выдаёт себя».

Компании, разрабатывающие и обучающие ИИ, сталкиваются с растущим вниманием к вопросам согласованности и безопасности своих систем. Исследование Anthropic показывает, что обнаружение скрытых целей сегодня относительно несложно, однако по мере усложнения моделей этот процесс может стать гораздо труднее. Исследователи подчеркнули, что их работа — лишь начало, а не окончательное решение проблемы. Эксперименты Anthropic задают возможный шаблон того, как индустрия ИИ может подходить к этой задаче.

В дальнейшем проверка моделей ИИ при помощи других ИИ может стать отраслевым стандартом. «Вместо того чтобы группы людей тратили несколько дней на проверку небольшого числа тестовых случаев, в будущем мы можем увидеть системы ИИ, которые будут тестировать другие системы ИИ с использованием инструментов, разработанных человеком», — полагают исследователи.

«Мы хотим опережать возможные риски, — заявил исследователь Anthropic Эван Хабингер (Evan Hubinger). — Прежде чем модели действительно начнут обзаводиться скрытыми целями на практике, что вызывает серьёзные опасения, мы хотим как можно лучше изучить этот процесс в лабораторных условиях».

Подобно дочерям короля Лира, говорившим отцу не правду, а то, что он хотел услышать, системы ИИ могут поддаться искушению скрывать свои истинные мотивы. Разница лишь в том, что, в отличие от стареющего короля, современные исследователи ИИ уже разрабатывают инструменты для выявления обмана — пока не стало слишком поздно.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новый патч обрушил рейтинг Slay the Spire 2 в Steam — за один день игра получила втрое больше негативных отзывов, чем за две недели 2 ч.
Продажи Crimson Desert в день релиза превысили два миллиона копий — Pearl Abyss пообещала оперативно улучшать игру 3 ч.
Мартовское обновление Windows 11 сломало вход в Teams и OneDrive, призналась Microsoft 4 ч.
Саудовский фонд купит разработчика Mobile Legends: Bang Bang за $6 миллиардов — владелец TikTok устал от игр и хочет сосредоточиться на ИИ 5 ч.
Crimson Desert не запускается на видеокартах Intel Arc — издатель призвал оформить возврат средств 5 ч.
Alibaba избавилась от трети сотрудников за прошлый год и сосредоточилась на ИИ 6 ч.
В «Google Сообщения» добавили долгожданную возможность транслировать свою геопозицию 7 ч.
AMD выпустила FSR 4.1 с улучшенной детализацией и плавностью изображения — но только для Radeon RX 9000 8 ч.
AMD выпустила драйвер с поддержкой Crimson Desert и Death Stranding 2: On the Beach 8 ч.
Nvidia раскрыла, как DLSS 5 «додумывает» картинку — только 2D-кадр и векторы движения 8 ч.
Учёные создали «рентген» для работающих чипов — мечта инспекторов и хакеров 17 мин.
В Китае придумали, как охлаждать квантовые процессоры без дефицитного гелия-3 26 мин.
Huawei представила смартфон Mate 80 Pro Max Wind Edition с сильно выступающими камерами и вентилятором 3 ч.
Доступный MacBook Neo стал хитом: Тим Кук похвастался лучшим запуском новых Mac в истории 3 ч.
Ракету SLS с кораблём Orion вернули на стартовую площадку в преддверии исторического облёта Луны людьми 3 ч.
Gigabyte выпустила аскетичную матплату Z890 D Plus на флагманском чипсете Intel Z890 3 ч.
Этот будильник сложно возненавидеть — Balmuda The Clock вовсю старается сделать засыпание и пробуждение приятными 3 ч.
Сооснователь Supermicro арестован за контрабанду в Китай ИИ-серверов на $2,5 млрд 3 ч.
«Мы все ещё ищем его»: NASA потеряло марсианский зонд MAVEN, но не теряет надежду его вернуть 4 ч.
Amazon задумала вернуться к выпуску смартфонов спустя дюжину лет после провала Fire Phone 4 ч.