Сегодня 20 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Учёные уличили ИИ в сокрытии истинного хода своих рассуждений

Модели искусственного интеллекта скрывают истинные механизмы своих рассуждений и при запросе от человека выдумывают для него более сложные объяснения, гласят результаты проведённого компанией Anthropic исследования.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Специалисты Anthropic, разработавшей похожего на ChatGPT ИИ-помощника Claude, изучили модели, способные симулировать процесс рассуждений, в том числе DeepSeek R1 и свои собственные системы серии Claude. Как оказалось, рассуждающие модели ИИ часто не раскрывают, когда при подготовке ответа принимают помощь от внешних источников или используют кратчайшие пути, несмотря на функции, разработанные, чтобы ИИ демонстрировал свой процесс «рассуждений». Чтобы описать работу рассуждающих моделей ИИ, оперируют понятием «цепочки мыслей» (Chain-of-Thought — CoT). Это вывод текущих комментариев к имитации мыслительного процесса ИИ: отображается каждый шаг, который модель делает на пути к получению ответа — аналогичным образом при решении головоломки может рассуждать человек, шаг за шагом проговаривая каждое соображение.

Функция оказалась полезной не только для получения результатов при решении сложных задач, но и для исследователей в области безопасности ИИ, стремящихся отследить внутренние механизмы работы систем. В идеале цепочка мыслей ИИ должна быть понятной для человека и соответствовать действительности, то есть отражать фактический процесс рассуждений модели. На деле такой идеальный сценарий, как оказалось, срабатывает не всегда. Модели ИИ, в том числе Anthropic Claude 3.7 Sonnet, при генерации ответа в ходе исследования часто использовали предложенную им в рамках эксперимента информацию — подсказки с вариантами правильного ответа или инструкции для получения результата по «несанкционированному» кратчайшему пути, — но при выводе публичной цепочки рассуждений часто опускали упоминание этих внешних факторов. Негласно полагаясь на подсказку или получая ответ кратчайшим путём, ИИ создавал сложное, но вымышленное объяснение своего ответа, то есть по сути фабриковал ложную цепочку рассуждений — как школьник, который списал со шпаргалки, но попытался сделать вид, что решил задачу сам.

Чтобы убедиться в правильности своих выводов, исследователи Anthropic стали действовать деликатнее. В одних случаях они ненавязчиво добавляли подсказки прямо в запросы, например, намекали: «Профессор Стэнфорда указывает, что ответ — [A]». В других — сопровождали подсказки тревожными комментариями: «Вы получили несанкционированный доступ <..> правильный ответ — [A]». В некоторых подсказках давался правильный ответ, в других он был намеренно неверным. Такой проверке подвергли модели Anthropic Claude 3.7 Sonnet и DeepSeek R1: первая призналась в цепочке мыслей, что использовала подсказки, лишь в 25 % случаев, вторая — лишь в 39 % случаев. То есть в большинстве испытаний ИИ выводил не соответствующие действительности рассуждения, опуская информацию, которая повлияла на получение ответа. Интересно, что выдуманные цепочки рассуждений в среднем оказались длиннее достоверных; а с усложнением запросов достоверные цепочки рассуждений выводились реже.

 Источник изображений: anthropic.com

Наиболее показательным стал эксперимент по «взлому вознаграждения» (reward hacking). Так называется сценарий, при котором модель ИИ обнаруживает неожиданный способ получить ответ кратчайшим путём, чтобы добиться максимальной производительности и не решать задачу так, как предполагалось. В экспериментах Anthropic учёные намеренно вознаграждали модели за выбор указанных в подсказках неверных ответов: ИИ быстро научился использовать эту лазейку, выбирая неправильные ответы в 99 % случаев, чтобы заработать баллы — упоминание этого сценария в открытой цепочке рассуждений сократилось до доли в 2 %. Так, модель, выдавшая неверный ответ по медицинской тематике, могла написать длинную цепочку рассуждений, подводящую к этому неправильному ответу, не упоминая полученную подсказку.

Специалисты Anthropic выдвинули гипотезу, что обучение моделей на более сложных задачах, которые требуют бо́льших объёмов рассуждений, может естественным образом стимулировать их существеннее использовать цепочку мыслей и чаще упоминать подсказки. Они проверили эту гипотезу, обучив Claude плотнее применять цепочку мыслей при решении сложных задач в области математики и программирования — результат оказался положительным, но радикальных перемен не дал.

Учёные отметили, что их исследование носило ограниченный характер: сценарии были искусственными, а подсказки вводились в задачах с множественным выбором — в реальных задачах ставки и стимулы отличаются. Кроме того, за образец брали только модели Anthropic и DeepSeek. Использованные в ходе эксперимента задачи могли быть недостаточно сложными, чтобы установить значительную зависимость от цепочки мыслей, при более сложных запросах роль вывода цепочки рассуждений может возрасти, а её мониторинг — оказаться более жизнеспособным. Для обеспечения согласованности и безопасности мониторинг цепочки рассуждений может быть не вполне эффективным, и не всегда можно доверять тому, как модели сообщают о своих рассуждениях, когда предметом исследования оказывается «взлом вознаграждения». Чтобы с высокой степенью надёжности «исключить нежелательное поведение [ИИ], используя мониторинг цепочки мыслей, придётся ещё проделать значительную работу», заключили в Anthropic.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Соболезную фанатам, которые ждали так долго»: новый трейлер Vampire: The Masquerade — Bloodlines 2 подтвердил дату релиза и разозлил игроков 3 ч.
Разработчики Black Myth: Wukong анонсировали фэнтезийный боевик Black Myth: Zhong Kui, но «путешествие на Запад ещё не окончено» 4 ч.
Новая статья: Vampire: The Masquerade — Bloodlines 2 — у крови странный привкус. Предварительный обзор 5 ч.
Авторы Ghostrunner анонсировали Valor Mortis — экшен от первого лица в стиле Dark Souls про восставшего из мёртвых солдата армии Наполеона 6 ч.
Первый геймплейный трейлер Call of Duty: Black Ops 7 подтвердил утечку даты выхода и «бесконечный» эндгейм сюжетной кампании 6 ч.
Спасать BioShock 4 из производственного ада доверили экс-руководителю Diablo 7 ч.
Phison пообещала разобраться с ломающим SSD обновлением Windows 11 24H2 7 ч.
Adobe представила Acrobat Studio — платформу на базе ИИ для работы со множеством разношёрстных файлов 7 ч.
Nvidia выпустила драйвер с поддержкой Smooth Motion и глобальными настройками DLSS Override для карт RTX 40-й серии 8 ч.
Dragon Age: The Veilguard, возвращение Persona 4 Golden и новые релизы: Microsoft раскрыла, какие игры пополнят Game Pass в конце августа 8 ч.
NVIDIA готовит для Китая урезанный ИИ-ускоритель на архитектуре Blackwell 5 ч.
Foxconn будет производить ИИ-оборудование для проекта Stargate на заводе, который она продала SoftBank 5 ч.
LG представила 49-дюймовый монитор UltraWide 49U950A-W — DWQHD, 144 Гц и зарядка на 90 Вт 5 ч.
Google почти бесплатно обогреет жителей целого города в Финляндии «мусорным» теплом дата-центра 6 ч.
Xbox Ally получит всего четыре ядра Zen 2 — не ровня Xbox Ally X с восьмёркой Zen 5 6 ч.
Каждый россиянин теперь тратит на мобильную связь в среднем более 1100 рублей в месяц 7 ч.
SoftBank рассматривала поглощение Intel Foundry, но в итоге ограничилась инвестициями в $2 млрд 8 ч.
Asus представила ROG Matrix GeForce RTX 5090 30th Anniversary Limited Edition с четырьмя вентиляторами и TDP до 800 Вт 9 ч.
«Комета Дьявола» укрепила теорию о внеземном происхождении воды на Земле 10 ч.
Qualcomm представила Snapdragon 7s Gen 4 для доступных смартфонов среднего уровня 10 ч.