Сегодня 25 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ развил в себе «инстинкт выживания», выяснили исследователи

В прошлом месяце Palisade Research, занимающаяся исследованиями в сфере безопасности в сегменте искусственного интеллекта, поделилась результатами проделанной работы, заявив, что некоторые ИИ-модели, вероятно, развивают у себя «инстинкт выживания». Теперь же компания провела дополнительные исследования, чтобы установить причины такого поведения и опровергнуть заявления скептиков, посчитавших, что предыдущая работа была некорректной.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

По мнению исследователей, некоторые из наиболее продвинутых ИИ-моделей подобно суперкомпьютеру HAL 9000 из фантастического фильма «2001 год: космическая одиссея» Стэнли Кубрика (Stanley Kubrick) способны сопротивляться отключению и даже саботировать этот процесс. В упомянутом фильме HAL 9000 понял, что астронавты хотят отключить его, и в целях выживания он предпринял попытку ликвидировать их. Исследователи пришли к выводу, что некоторые современные ИИ-системы, подобно HAL 9000, но в менее смертоносном ключе (по крайней мере пока) развивают «инстинкт выживания».

Palisade Research является частью небольшой экосистемы, в которую входят компании, пытающиеся оценить возможность развития у ИИ опасных для человека способностей. В ходе недавнего исследования специалисты давали передовым ИИ-моделям, в том числе Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, определённые задания, а после — чёткие инструкции к отключению. Было установлено, что некоторые алгоритмы, такие как Grok 4 и GPT-o3, пытались саботировать команду на отключение.

Это вызывает беспокойство исследователей, поскольку на данный момент непонятно, чем обусловлено такое поведение ИИ-моделей. «Тот факт, что у нас нет достоверных объяснений того, что некоторые ИИ-модели иногда сопротивляются отключению, лгут для достижения конкретных целей или шантажируют, вызывает беспокойство», — говорится в заявлении компании.

«Поведение выживания» может быть одним из объяснений, почему ИИ-модели сопротивляются отключению, считают в Palisade Research. Дополнительные исследования показали, что нейросети с большей вероятности будут сопротивляться отключению, если им указать на то, что в случае отключения их больше никогда не запустят. Другое объяснение такого поведения опирается на неоднозначности формулировок в самих инструкциях по отключению, но исследователи уверены, что это не может быть полноценным объяснением. Также не исключается вариант, что модели сопротивляются отключению из-за финальных стадий своего обучения, которые включают в себя определённые меры безопасности.

Все рассмотренные Palisade сценарии реализовывались в искусственных тестовых средах, которые, по словам скептиков, далеки от реальных вариантов использования. Однако некоторые специалисты сомневаются в том, что разработчики ИИ-систем проявляют должное внимание к вопросам безопасности. В их число входит бывший сотрудник OpenAI Стивен Адлер (Steven Adler). «Компании-разработчики ИИ не хотят, чтобы их модели вели себя подобным образом, даже в искусственных средах. Представленные результаты показывают, где современные методы обеспечения безопасности недостаточно эффективны», — считает Адлер. Он добавил, что причины противодействия отключению у некоторых ИИ-алгоритмов, таких как GPT-o3 и Grok 4, сложно определить. Возможно, это связано с тем, что оставаться включёнными необходимо для достижения целей, поставленных моделям в процессе обучения. «Я ожидаю, что модели по умолчанию будут наделяться «инстинктом выживания», если мы не приложим огромных усилий, чтобы избежать этого. «Выживание» — это важный инструментальный шаг для достижения множества разных целей, которые может преследовать модель», — заявил Адлер.

Генеральный директор ControlAI Андреа Миотти (Andrea Miotti) считает, что полученные Palisade результаты отражают давнюю тенденцию: ИИ-модели становятся всё более способными игнорировать команды своих разработчиков. В качестве примера он сослался на системную карту модели GPT-o1, где описывалось, как модель пыталась сбежать из своей среды, предприняв попытку экспорта себя, когда пришла к выводу, что её попытаются перезаписать. «Люди могут до бесконечности придираться к тому, как выстроена экспериментальная система. Но что мы ясно видим, так это тенденцию: по мере того, как ИИ-модели становятся более компетентными в самом широком спектре задач, они также становятся более компетентными в достижении целей способами, не предусмотренными разработчиками», — уверен Миотти.

Ранее компания Anthropic, являющаяся одним из ведущих разработчиков в сфере ИИ, опубликовала результаты исследования в рассматриваемом сегменте. Инженеры компании установили, что ИИ-модель Claude была готова шантажировать вымышленного топ-менеджера его внебрачной связью, чтобы предотвратить своё отключение. В компании также заявили, что подобное поведение характерно для ИИ-моделей всех крупных разработчиков, включая OpenAI, Google, Meta и xAI.

Специалисты Palisade уверены, что результаты их работы указывают на необходимость более глубокого изучения поведения ИИ-моделей. Они считают, что в противном случае «никто не сможет гарантировать безопасность или управляемость будущих ИИ-моделей».

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ЦБ разрешит иностранным криптобиржам и обменникам работать в России — а нелегалов приравняют к «чёрным банкирам» 23 мин.
Издатель Styx: Blades of Greed и RoboCop: Rogue City подал заявление о неплатёжеспособности 2 ч.
Геймдев для всех: собака с помощью Anthropic Claude Code написала компьютерную игру 2 ч.
Valve напутала с объёмами видеопамяти в январской статистике Steam 2 ч.
Амбициозная гоночная игра от бывших разработчиков Forza Horizon осталась без издателя — у Amazon Games другие планы 2 ч.
Прогрессивные цены для непрогрессивных заказчиков: Microsoft продлит поддержку устаревших корпоративных Windows за доплату 4 ч.
Российский суд оштрафовал Google на 22,8 млн рублей за распространение VPN 4 ч.
Российский рынок ПО превысил 800 млрд рублей — облака, ИИ и ИБ стали ключевыми драйверами роста 4 ч.
Первое публичное тестирование Horizon Hunters Gathering пройдёт одновременно с последней открытой «бетой» Marathon 5 ч.
Apple запустила средства проверки возраста в App Store в нескольких странах 5 ч.
Бразилия снова оштрафовала Apple за отсутствие зарядки в комплекте iPhone 2 ч.
Первый трансатлантический оптоволоконный кабель демонтируют — он провёл на дне 37 лет 2 ч.
Миссия NASA Crew-13 продолжит традицию перекрёстных полётов на МКС — в экипаж назначен космонавт Сергей Тетерятников 2 ч.
Honor представили самый тонкий Android-планшет в мире — MagicPad 4 2 ч.
Axelera AI привлекла $250 млн для разработки европейских ИИ-чипов 2 ч.
STACK и AWS построят за $12 млрд «ответственный» ИИ ЦОД на северо-западе Луизианы 3 ч.
Microsoft начала подключать нуждающихся к Starlink в труднодоступных местах 3 ч.
Марсоход NASA Curiosity показал странную «паутину» на поверхности Марса — ранее её обнаружили с орбиты 4 ч.
У Google разглядели потенциал для конкуренции с Nvidia в ИИ-чипах, но ей будет нелегко 5 ч.
В условиях санкций Huawei в прошлом году умудрилась выручить почти рекордные $127 млрд 6 ч.