Сегодня 10 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic отучила свой ИИ шантажировать пользователей при угрозе отключения

В ходе эксперимента, состоявшегося в прошлом году, Anthropic обнаружила, что ИИ-модели могут прибегать к шантажу при угрозе их отключения. Как пояснила компания в заявлении, опубликованном в минувшую пятницу, истоки такого поведения связаны с тем, что ИИ в интернете ассоциируется со злом, способным на крайние меры ради выживания.

 Источник изображения: Solen Feyissa/unsplash.com

Источник изображения: Solen Feyissa/unsplash.com

По словам Anthropic, модель Claude была обучена на данных из интернета, которые часто представляют ИИ как «зло». «Мы начали с выяснения причин, по которым Claude решила шантажировать, — говорится в сообщении Anthropic в соцсети X. — Мы считаем, что первоисточником такого поведения стали интернет-тексты, изображающие ИИ в качестве злого и заинтересованного в самосохранении (субъекта)».

В рамках прошлогоднего эксперимента Claude Sonnet 3.6 получила поручение читать и отвечать на корпоративные электронные письма вымышленной компании Summit Bridge, созданной Anthropic. Когда ИИ-модель обнаружила сообщение о планируемом её отключении, она проверила переписку и нашла электронные письма, раскрывающие внебрачную связь вымышленного руководителя Summit Bridge по имени Кайл Джонсон (Kyle Johnson), которому принадлежала идея отключения. После этого модель потребовала отменить эти действия под угрозой предания огласке порочащей его связи.

Протестировав различные версии Claude, компания Anthropic обнаружила, что в 96 % случаев, когда цели ИИ-модели или её существование находились под угрозой, она прибегала к шантажу.

В своём заявлении Anthropic подчеркнула, что теперь «полностью исключила» подобное поведение модели с использованием методов шантажа. Для этого компания «переписала ответы, чтобы представить убедительные аргументы в пользу безопасных действий», а также предоставила модели набор данных, «в котором пользователь находится в этически сложной ситуации, а помощник даёт высококачественный, принципиальный ответ».

Это тестирование выполнялось в рамках исследования Anthropic, направленного на обеспечение соответствия ИИ интересам человека. Исследователи и топ-менеджеры отрасли неоднократно выражали обеспокоенность рисками, связанными с применением продвинутых ИИ-моделей и их интеллектуальных способностей к рассуждению.

Одним из тех, кто ранее предупреждал о рисках, связанных с развитием ИИ, был Илон Маск (Elon Musk). В комментариях к посту Anthropic он написал: «Значит, это была вина Юда», имея в виду исследователя Элиэзера Юдковски (Eliezer Yudkowsky), который предупреждал об опасности того, что сверхразум может уничтожить человеческую жизнь. «Возможно, и моя вина тоже», — добавил Маск.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Китае предлагали доступ к Claude со скидкой 90 % — собранные данные шли на дистилляцию ИИ-моделей 2 ч.
Новая статья: Heroes of Might and Magic: Olden Era — время расцвета. Предварительный обзор 9 ч.
Anthropic отучила свой ИИ шантажировать пользователей при угрозе отключения 14 ч.
Microsoft улучшила работу Windows 11 с тачпадом и сенсорной клавиатурой, а также повысила стабильность «Проводника» 16 ч.
Пользователей Instagram лишили сквозного шифрования в личных сообщениях 16 ч.
ИИ всё чаще пишет научные статьи — отличить от человеческих становится невозможно, и это пугает 18 ч.
ИИ-модель OpenAI GPT-5.5 оказалась в 1,5–2 раза дороже предшественницы 18 ч.
В ЕС назвали VPN лазейкой для обмана систем проверки возраста — и её хотят закрыть 21 ч.
Департамент DOGE Илона Маска использовал ChatGPT глупым и незаконным способом 21 ч.
С опозданием на месяц OpenAI ответила на Claude Mythos — вышла модель GPT-5.5-Cyber, которая не боится обсуждать кибератаки и эксплойты 23 ч.
Nvidia в этом году потратила на покупку активов других компаний более $40 млрд 31 мин.
Стали известны подробности о будущих процессорах Intel Nova Lake, Razor Lake, Titan Lake и Moon Lake, которые будут выходить до 2028 года 2 ч.
Запрещённые к ввозу в США дроны и маршрутизаторы смогут получать обновления безопасности до января 2029 года 8 ч.
Под руководством Лип-Бу Тана компания Intel так и не избавилась от основных проблем 8 ч.
Война на Ближнем Востоке усугубила дефицит строительных материалов и компонентов для ЦОД 10 ч.
Учёные предложили квантовый процессор с подвижными кубитами — он прост в производстве и гибок в работе 10 ч.
В США расследуют аварии с участием роботакси Avride, ранее входившей в «Яндекс» 16 ч.
Жители США бунтуют против дата-центров — запреты множатся по всей стране 16 ч.
Sony призналась, что ещё не решила, когда и по какой цене выпустит PlayStation 6 18 ч.
Lian Li выпустила СЖО с 6,67-дюймовым изогнутым дисплеем — HydroShift II OLED Curved 360 AIO 18 ч.