Сегодня 29 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic отучила свой ИИ шантажировать пользователей при угрозе отключения

В ходе эксперимента, состоявшегося в прошлом году, Anthropic обнаружила, что ИИ-модели могут прибегать к шантажу при угрозе их отключения. Как пояснила компания в заявлении, опубликованном в минувшую пятницу, истоки такого поведения связаны с тем, что ИИ в интернете ассоциируется со злом, способным на крайние меры ради выживания.

 Источник изображения: Solen Feyissa/unsplash.com

Источник изображения: Solen Feyissa/unsplash.com

По словам Anthropic, модель Claude была обучена на данных из интернета, которые часто представляют ИИ как «зло». «Мы начали с выяснения причин, по которым Claude решила шантажировать, — говорится в сообщении Anthropic в соцсети X. — Мы считаем, что первоисточником такого поведения стали интернет-тексты, изображающие ИИ в качестве злого и заинтересованного в самосохранении (субъекта)».

В рамках прошлогоднего эксперимента Claude Sonnet 3.6 получила поручение читать и отвечать на корпоративные электронные письма вымышленной компании Summit Bridge, созданной Anthropic. Когда ИИ-модель обнаружила сообщение о планируемом её отключении, она проверила переписку и нашла электронные письма, раскрывающие внебрачную связь вымышленного руководителя Summit Bridge по имени Кайл Джонсон (Kyle Johnson), которому принадлежала идея отключения. После этого модель потребовала отменить эти действия под угрозой предания огласке порочащей его связи.

Протестировав различные версии Claude, компания Anthropic обнаружила, что в 96 % случаев, когда цели ИИ-модели или её существование находились под угрозой, она прибегала к шантажу.

В своём заявлении Anthropic подчеркнула, что теперь «полностью исключила» подобное поведение модели с использованием методов шантажа. Для этого компания «переписала ответы, чтобы представить убедительные аргументы в пользу безопасных действий», а также предоставила модели набор данных, «в котором пользователь находится в этически сложной ситуации, а помощник даёт высококачественный, принципиальный ответ».

Это тестирование выполнялось в рамках исследования Anthropic, направленного на обеспечение соответствия ИИ интересам человека. Исследователи и топ-менеджеры отрасли неоднократно выражали обеспокоенность рисками, связанными с применением продвинутых ИИ-моделей и их интеллектуальных способностей к рассуждению.

Одним из тех, кто ранее предупреждал о рисках, связанных с развитием ИИ, был Илон Маск (Elon Musk). В комментариях к посту Anthropic он написал: «Значит, это была вина Юда», имея в виду исследователя Элиэзера Юдковски (Eliezer Yudkowsky), который предупреждал об опасности того, что сверхразум может уничтожить человеческую жизнь. «Возможно, и моя вина тоже», — добавил Маск.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Gartner: большинство кастомных ИИ-моделей и проектов генеративного ИИ ожидает провал 19 мин.
Fable всё-таки не выйдет в 2026 году — в том числе из-за GTA VI 31 мин.
Ролевая игра The Witch's Bakery подружит геймеров с общительной ведьмой-пекарем из Парижа — релиз намечен на август 2 ч.
Дополнение «Баллады прошлого» к The Witcher 3 станет «прологом» к будущему «Ведьмака» 3 ч.
Кроссовер с Clair Obscur, онлайн-кооператив и элементы 3D: инсайдеры поделились новыми подробностями ремейка Rayman Legends 4 ч.
Стартап Shift предложил бесплатную уборку домов ради обучения роботов 5 ч.
Project Lightwell: IBM и Red Hat предложили корпорациям скинуться на патчи безопасности для open source ПО и сами вложат $5 млрд 5 ч.
Фирма случайно спустила $500 млн на Anthropic Claude всего за месяц 5 ч.
В «Google Фото» появятся новые средства управления «Воспоминаниями» 7 ч.
Meta раздумывает, не потягаться ли с AWS и другими облаками 8 ч.
Dell представила самый лёгкий ноутбук XPS — килограммовый XPS 13 c Intel Wildcat Lake и ценой от $599 32 мин.
Утечка показала iPhone 18 Pro в цвете «Тёмная вишня» — он может стать новым трендом для Android 36 мин.
ASRock выпустит видеокарту Radeon RX 9070 XT Taichi 10th Anniversary Edition по случаю 10-летия бренда Taichi 52 мин.
Acer показала портативную консоль Nitro Blaze Link для трансляции игр с ПК по Wi-Fi 55 мин.
Acer представила «доступный всем» игровой ноутбук Nitro 16 с Ryzen 9 9955HX3D и GeForce RTX 5070 Ti 2 ч.
Acer представила флагманский игровой ноутбук Predator Helios 18 с чипами Core Ultra 9 290HX и RTX 5090 2 ч.
Работа МКС будет продлена до 2030 года, даже если Россия уйдёт со станции 2 ч.
TSMC: чистая производительность чипов больше не главное — приоритетом стала энергоэффективность 3 ч.
MSI представила первый в мире игровой монитор с QD-OLED и тремя режимами — 4K@360 Гц, 2K@520 Гц и FHD@680 Гц 3 ч.
«Воронья слободка»: Joby, Archer и Vertical погрязли в судебных войнах и поставили под удар массовый запуск аэротакси 3 ч.