Сегодня 21 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ развил в себе «инстинкт выживания», выяснили исследователи

В прошлом месяце Palisade Research, занимающаяся исследованиями в сфере безопасности в сегменте искусственного интеллекта, поделилась результатами проделанной работы, заявив, что некоторые ИИ-модели, вероятно, развивают у себя «инстинкт выживания». Теперь же компания провела дополнительные исследования, чтобы установить причины такого поведения и опровергнуть заявления скептиков, посчитавших, что предыдущая работа была некорректной.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

По мнению исследователей, некоторые из наиболее продвинутых ИИ-моделей подобно суперкомпьютеру HAL 9000 из фантастического фильма «2001 год: космическая одиссея» Стэнли Кубрика (Stanley Kubrick) способны сопротивляться отключению и даже саботировать этот процесс. В упомянутом фильме HAL 9000 понял, что астронавты хотят отключить его, и в целях выживания он предпринял попытку ликвидировать их. Исследователи пришли к выводу, что некоторые современные ИИ-системы, подобно HAL 9000, но в менее смертоносном ключе (по крайней мере пока) развивают «инстинкт выживания».

Palisade Research является частью небольшой экосистемы, в которую входят компании, пытающиеся оценить возможность развития у ИИ опасных для человека способностей. В ходе недавнего исследования специалисты давали передовым ИИ-моделям, в том числе Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, определённые задания, а после — чёткие инструкции к отключению. Было установлено, что некоторые алгоритмы, такие как Grok 4 и GPT-o3, пытались саботировать команду на отключение.

Это вызывает беспокойство исследователей, поскольку на данный момент непонятно, чем обусловлено такое поведение ИИ-моделей. «Тот факт, что у нас нет достоверных объяснений того, что некоторые ИИ-модели иногда сопротивляются отключению, лгут для достижения конкретных целей или шантажируют, вызывает беспокойство», — говорится в заявлении компании.

«Поведение выживания» может быть одним из объяснений, почему ИИ-модели сопротивляются отключению, считают в Palisade Research. Дополнительные исследования показали, что нейросети с большей вероятности будут сопротивляться отключению, если им указать на то, что в случае отключения их больше никогда не запустят. Другое объяснение такого поведения опирается на неоднозначности формулировок в самих инструкциях по отключению, но исследователи уверены, что это не может быть полноценным объяснением. Также не исключается вариант, что модели сопротивляются отключению из-за финальных стадий своего обучения, которые включают в себя определённые меры безопасности.

Все рассмотренные Palisade сценарии реализовывались в искусственных тестовых средах, которые, по словам скептиков, далеки от реальных вариантов использования. Однако некоторые специалисты сомневаются в том, что разработчики ИИ-систем проявляют должное внимание к вопросам безопасности. В их число входит бывший сотрудник OpenAI Стивен Адлер (Steven Adler). «Компании-разработчики ИИ не хотят, чтобы их модели вели себя подобным образом, даже в искусственных средах. Представленные результаты показывают, где современные методы обеспечения безопасности недостаточно эффективны», — считает Адлер. Он добавил, что причины противодействия отключению у некоторых ИИ-алгоритмов, таких как GPT-o3 и Grok 4, сложно определить. Возможно, это связано с тем, что оставаться включёнными необходимо для достижения целей, поставленных моделям в процессе обучения. «Я ожидаю, что модели по умолчанию будут наделяться «инстинктом выживания», если мы не приложим огромных усилий, чтобы избежать этого. «Выживание» — это важный инструментальный шаг для достижения множества разных целей, которые может преследовать модель», — заявил Адлер.

Генеральный директор ControlAI Андреа Миотти (Andrea Miotti) считает, что полученные Palisade результаты отражают давнюю тенденцию: ИИ-модели становятся всё более способными игнорировать команды своих разработчиков. В качестве примера он сослался на системную карту модели GPT-o1, где описывалось, как модель пыталась сбежать из своей среды, предприняв попытку экспорта себя, когда пришла к выводу, что её попытаются перезаписать. «Люди могут до бесконечности придираться к тому, как выстроена экспериментальная система. Но что мы ясно видим, так это тенденцию: по мере того, как ИИ-модели становятся более компетентными в самом широком спектре задач, они также становятся более компетентными в достижении целей способами, не предусмотренными разработчиками», — уверен Миотти.

Ранее компания Anthropic, являющаяся одним из ведущих разработчиков в сфере ИИ, опубликовала результаты исследования в рассматриваемом сегменте. Инженеры компании установили, что ИИ-модель Claude была готова шантажировать вымышленного топ-менеджера его внебрачной связью, чтобы предотвратить своё отключение. В компании также заявили, что подобное поведение характерно для ИИ-моделей всех крупных разработчиков, включая OpenAI, Google, Meta и xAI.

Специалисты Palisade уверены, что результаты их работы указывают на необходимость более глубокого изучения поведения ИИ-моделей. Они считают, что в противном случае «никто не сможет гарантировать безопасность или управляемость будущих ИИ-моделей».

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Google Переводчик» научит пользователей правильному произношению с помощью ИИ 2 ч.
На PlayStation появится ИИ-генератор кадров, как у Radeon — но не в ближайшее время 4 ч.
Чиновников обяжут пользоваться мессенджером Max 5 ч.
Пентагон принял боевую ИИ-систему Palantir Maven в качестве основной для армии США 5 ч.
Microsoft представила MAI-Image-2 — ИИ-генератор изображений, который оказался неожиданно хорош в фотореализме и инфографике 5 ч.
Меньше ИИ, больше надёжности: Microsoft рассказала, как будет возвращать утраченное доверие к Windows 11 5 ч.
Суд признал, что «глупые твиты» Илона Маска перед покупкой Twitter привели к убыткам инвесторов 11 ч.
Панель задач Windows 11 всё же станет перемещаемой — как в Windows 10 15 ч.
Новая статья: Esoteric Ebb — кубик всемогущий. Рецензия 17 ч.
Поиск Google начал подменять заголовки новостей сгенерированными ИИ — и не гнушается искажением смысла 18 ч.
Apple не представит iPhone 18 осенью, но покажет кое что поинтереснее 50 мин.
Провайдеры домашнего интернета в Москве готовятся к внедрению «белых списков», но это не точно 2 ч.
«Лунная гонка» продолжается: у Сатурна нашли ещё 11 спутников, а у Юпитера — четыре 2 ч.
Запрыгнуть в последний вагон: Европа арендует Crew Dragon, чтобы слетать на МКС до её закрытия 3 ч.
ИТ-холдинг Т1: только 9 % организаций в России обеспечены вычислительной инфраструктурой для ИИ 3 ч.
Alibaba сообщила об отгрузке 470 тысяч чипов, признав, что они пока уступают решениям NVIDIA и AMD 4 ч.
От чистки ковров к СЖО: Ecolab планирует купить CoolIT почти за $5 млрд 4 ч.
Intel внезапно выпустила мобильный 14-ядерный процессор Core i7-13645HX поколения Raptor Lake 4 ч.
11 Тбайт памяти для ИИ: Penguin Solutions представила кеширующий сервер MemoryAI KV на основе CXL-модулей 4 ч.
Британские учёные отказались от канонического мемристора и совершили прорыв в аналоговой памяти 4 ч.