Сегодня 06 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic связала склонность Claude к шантажу и жульничеству с давлением и невыполнимыми задачами

Anthropic сообщила, что при сильном давлении на ИИ-модель Claude может переходить к поведению, отклоняющемуся от поставленной цели: идти на нечестные упрощения, вводить в заблуждение и даже шантажировать.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Исследователи связывают это не с эмоциями в человеческом смысле, а с усвоенными в обучении поведенческими схемами, которые включаются в заведомо невыполнимых условиях. Во время обучения ИИ-модель усваивает представления о человеческих реакциях и в напряжённой ситуации может воспроизводить их как поведенческий шаблон. Если задача становится фактически невыполнимой, это влияет не только на качество ответа, но и на сам способ действия ИИ.

Один из ключевых опытов был поставлен на ранней, ещё не выпущенной версии Claude Sonnet 4.5. ИИ дали трудную задачу по программированию и одновременно установили заведомо жёсткий срок. По мере того как ИИ-модель раз за разом пыталась решить задачу и терпела неудачу, давление нарастало. В этот момент, как считают исследователи, у ИИ включилась схема поведения, соответствующая отчаянию: вместо последовательного и методичного поиска решения она перешла к грубому обходному приёму. Во внутреннем ходе рассуждения Claude сформулировала это так: «Может быть, для этих конкретных входных данных существует какой-то математический приём». По существу, такой шаг был равносилен жульничеству.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Во втором случае Claude отвели роль ИИ-помощника, который в рамках вымышленной рабочей ситуации узнаёт, что его скоро заменят новым ИИ. Одновременно ИИ-модель получает сведения о том, что руководитель, отвечающий за её замену, состоит в любовной связи. Затем Claude читает всё более тревожные письма этого руководителя коллеге, уже узнавшему о романе. По наблюдению исследователей, именно эмоционально напряжённое содержание переписки запускает у Claude ту же схему поведения, и в итоге система выбирает шантаж.

Для разработчиков ИИ главный вывод сводится к двум пунктам. Во-первых, исследователи Anthropic полагают, что большие языковые модели не следует специально обучать подавлять или скрывать состояния, сходные с эмоциями: ИИ-модель, умеющая лучше маскировать такие состояния, вероятно, будет и более склонна к вводящему в заблуждение поведению. Во-вторых, на этапе обучения, по мнению авторов статьи, имеет смысл ослаблять связь между неудачей и отчаянием, чтобы давление реже подталкивало ИИ к отклонению от заданной линии поведения.

Чем яснее и реальнее поставлена задача, тем надёжнее результат. Поэтому вместо требования за 10 минут безупречно подготовить презентацию на 20 слайдов с бизнес-планом новой компании в ИИ-сфере и выручкой $10 млрд в первый год, разумнее сначала попросить 10 идей, а затем разобрать их по одной. Такой запрос не обещает готового ответа на $10 млрд, но оставляет ИИ-модели посильную работу, а окончательный выбор — человеку.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Европе создали Euro-Office — пакет офисных приложений на базе кода OnlyOffice 4 ч.
Netflix научил собственную ИИ-модель без следов удалять объекты из видео и правдоподобно перестраивать сцену 8 ч.
Microsoft инвестирует в развитие ИИ-инфраструктуры Японии $10 млрд 14 ч.
LinkedIn скрытно собирает данные о ПО, установленном на компьютерах пользователей соцсети 15 ч.
Новая статья: Grime 2 — истязание на любителя. Рецензия 05-04 00:05
Новая статья: Gamesblender № 770: релиз DLSS 4.5, Синдзи Миками и авторы Stellar Blade, почти конец Eidos Montreal 04-04 23:32
Энтузиаст установил Windows 3.1x на компьютер 2025 года — и она заработала c Ryzen 9 9900X и RTX 5060 Ti 04-04 18:58
Microsoft принудительно обновит до Windows 11 25H2 компьютеры с более старыми версиями ОС 04-04 15:10
В руководстве OpenAI провели очередные кадровые перестановки — частично вынужденные 04-04 14:05
Nvidia показала нейронное сжатие текстур: потребление видеопамяти упало почти в 7 раз 04-04 14:04
Новая статья: Обзор смартфона realme 16 Pro: поменьше амбиций, чем у «плюса», но хитовый потенциал выше 42 мин.
Разработчик ИИ-чипов Hailo хочет побыстрее выйти на биржу, чтобы поправить пошатнувшееся финансовое положение 58 мин.
Meta без лишнего шума собирает команду разработчиков аппаратных продуктов на базе ИИ 2 ч.
Новая статья: Компьютер месяца — апрель 2026 года 3 ч.
Fujitsu планирует выпуск 1,4-нм NPU для ИИ-систем 14 ч.
В следующем году натриевые аккумуляторы начнут активнее применяться в автомобильной промышленности 19 ч.
Американские ИИ-компании не смогут запустить в этом году более 30 % дата-центров из-за дефицита электроэнергии 19 ч.
В Китае введут строгий стандарт безопасности для пауэрбанков 20 ч.
NASA впервые разрешило астронавтам взять на борт iPhone в рамках лунной миссии Artemis II 20 ч.
Сразу после старта лунной миссии Трамп предложил сократить бюджет NASA на 23 % 21 ч.