Сегодня 05 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ развил в себе «инстинкт выживания», выяснили исследователи

В прошлом месяце Palisade Research, занимающаяся исследованиями в сфере безопасности в сегменте искусственного интеллекта, поделилась результатами проделанной работы, заявив, что некоторые ИИ-модели, вероятно, развивают у себя «инстинкт выживания». Теперь же компания провела дополнительные исследования, чтобы установить причины такого поведения и опровергнуть заявления скептиков, посчитавших, что предыдущая работа была некорректной.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

По мнению исследователей, некоторые из наиболее продвинутых ИИ-моделей подобно суперкомпьютеру HAL 9000 из фантастического фильма «2001 год: космическая одиссея» Стэнли Кубрика (Stanley Kubrick) способны сопротивляться отключению и даже саботировать этот процесс. В упомянутом фильме HAL 9000 понял, что астронавты хотят отключить его, и в целях выживания он предпринял попытку ликвидировать их. Исследователи пришли к выводу, что некоторые современные ИИ-системы, подобно HAL 9000, но в менее смертоносном ключе (по крайней мере пока) развивают «инстинкт выживания».

Palisade Research является частью небольшой экосистемы, в которую входят компании, пытающиеся оценить возможность развития у ИИ опасных для человека способностей. В ходе недавнего исследования специалисты давали передовым ИИ-моделям, в том числе Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, определённые задания, а после — чёткие инструкции к отключению. Было установлено, что некоторые алгоритмы, такие как Grok 4 и GPT-o3, пытались саботировать команду на отключение.

Это вызывает беспокойство исследователей, поскольку на данный момент непонятно, чем обусловлено такое поведение ИИ-моделей. «Тот факт, что у нас нет достоверных объяснений того, что некоторые ИИ-модели иногда сопротивляются отключению, лгут для достижения конкретных целей или шантажируют, вызывает беспокойство», — говорится в заявлении компании.

«Поведение выживания» может быть одним из объяснений, почему ИИ-модели сопротивляются отключению, считают в Palisade Research. Дополнительные исследования показали, что нейросети с большей вероятности будут сопротивляться отключению, если им указать на то, что в случае отключения их больше никогда не запустят. Другое объяснение такого поведения опирается на неоднозначности формулировок в самих инструкциях по отключению, но исследователи уверены, что это не может быть полноценным объяснением. Также не исключается вариант, что модели сопротивляются отключению из-за финальных стадий своего обучения, которые включают в себя определённые меры безопасности.

Все рассмотренные Palisade сценарии реализовывались в искусственных тестовых средах, которые, по словам скептиков, далеки от реальных вариантов использования. Однако некоторые специалисты сомневаются в том, что разработчики ИИ-систем проявляют должное внимание к вопросам безопасности. В их число входит бывший сотрудник OpenAI Стивен Адлер (Steven Adler). «Компании-разработчики ИИ не хотят, чтобы их модели вели себя подобным образом, даже в искусственных средах. Представленные результаты показывают, где современные методы обеспечения безопасности недостаточно эффективны», — считает Адлер. Он добавил, что причины противодействия отключению у некоторых ИИ-алгоритмов, таких как GPT-o3 и Grok 4, сложно определить. Возможно, это связано с тем, что оставаться включёнными необходимо для достижения целей, поставленных моделям в процессе обучения. «Я ожидаю, что модели по умолчанию будут наделяться «инстинктом выживания», если мы не приложим огромных усилий, чтобы избежать этого. «Выживание» — это важный инструментальный шаг для достижения множества разных целей, которые может преследовать модель», — заявил Адлер.

Генеральный директор ControlAI Андреа Миотти (Andrea Miotti) считает, что полученные Palisade результаты отражают давнюю тенденцию: ИИ-модели становятся всё более способными игнорировать команды своих разработчиков. В качестве примера он сослался на системную карту модели GPT-o1, где описывалось, как модель пыталась сбежать из своей среды, предприняв попытку экспорта себя, когда пришла к выводу, что её попытаются перезаписать. «Люди могут до бесконечности придираться к тому, как выстроена экспериментальная система. Но что мы ясно видим, так это тенденцию: по мере того, как ИИ-модели становятся более компетентными в самом широком спектре задач, они также становятся более компетентными в достижении целей способами, не предусмотренными разработчиками», — уверен Миотти.

Ранее компания Anthropic, являющаяся одним из ведущих разработчиков в сфере ИИ, опубликовала результаты исследования в рассматриваемом сегменте. Инженеры компании установили, что ИИ-модель Claude была готова шантажировать вымышленного топ-менеджера его внебрачной связью, чтобы предотвратить своё отключение. В компании также заявили, что подобное поведение характерно для ИИ-моделей всех крупных разработчиков, включая OpenAI, Google, Meta и xAI.

Специалисты Palisade уверены, что результаты их работы указывают на необходимость более глубокого изучения поведения ИИ-моделей. Они считают, что в противном случае «никто не сможет гарантировать безопасность или управляемость будущих ИИ-моделей».

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Аудитория Google Gemini достигла 750 млн активных пользователей в месяц — до ChatGPT осталось совсем чуть-чуть 19 мин.
Создатель классической Prince of Persia расстроен «жестокой» отменой ремейка Prince of Persia: The Sands of Time, но надежды не теряет 42 мин.
Моддеры взялись воссоздавать отменённую Fallout 3 на движке Fallout: New Vegas — первый трейлер Fallout: The New West 46 мин.
Выручка YouTube достигла рекордных $60 млрд в 2025 году — больше, чем у Netflix 2 ч.
Годовая выручка Google впервые превысила $400 млрд — забрасывание ИИ деньгами усилится 2 ч.
Ставший вирусным ИИ-агент OpenClaw накрыло волной вредоносных дополнений 3 ч.
ICE — не айс: французская Capgemini продаст подразделение CGS, обслуживающее власти США 5 ч.
Никита Буянов опроверг связь загадочной Cor3 с Escape from Tarkov и Battlestate Games, ещё больше запутав фанатов 5 ч.
Новая глава, старое название: Blizzard анонсировала перезагрузку Overwatch 2 15 ч.
Пьяные убийства, съеденные яблоки и акты милосердия: разработчики Kingdom Come: Deliverance 2 раскрыли статистику игроков за год с релиза 16 ч.
Приставка Steam Machine выйдет до конца июня, но даже Valve до сих пор не знает ни дату, ни цену 14 мин.
Omdia прогнозирует рост цен на всё более дефицитные серверные CPU 2 ч.
Ядерный взрыв для защиты Земли от астероида может быть безопаснее, чем считалось — учёные провели эксперимент 2 ч.
AMD представила FPGA серии Kintex UltraScale+ Gen 2 с поддержкой PCIe 4.0 и LPDDR5X 3 ч.
ИИ помог и навредил: Arm стала больше зарабатывать на серверах, но смартфоны испортили картину — акции рухнули на 8 % 6 ч.
TSMC наладит выпуск 3-нм чипов в Японии — власти кратно увеличат субсидирование 6 ч.
«Смешно, но нечестно»: Сэм Альтман раскритиковал кампанию Anthropic против рекламы в ChatGPT 7 ч.
SpaceX обвинила Amazon в попытке получить особые условия на рынке спутниковой связи 7 ч.
Amazon ускорит и удешевит производство фильмов с помощью искусственного интеллекта 7 ч.
Рынок смартфонов забуксовал из-за дефицита: Qualcomm разочаровала прогнозом, акции обвалились на 10 % 9 ч.