Сегодня 17 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ развил в себе «инстинкт выживания», выяснили исследователи

В прошлом месяце Palisade Research, занимающаяся исследованиями в сфере безопасности в сегменте искусственного интеллекта, поделилась результатами проделанной работы, заявив, что некоторые ИИ-модели, вероятно, развивают у себя «инстинкт выживания». Теперь же компания провела дополнительные исследования, чтобы установить причины такого поведения и опровергнуть заявления скептиков, посчитавших, что предыдущая работа была некорректной.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

По мнению исследователей, некоторые из наиболее продвинутых ИИ-моделей подобно суперкомпьютеру HAL 9000 из фантастического фильма «2001 год: космическая одиссея» Стэнли Кубрика (Stanley Kubrick) способны сопротивляться отключению и даже саботировать этот процесс. В упомянутом фильме HAL 9000 понял, что астронавты хотят отключить его, и в целях выживания он предпринял попытку ликвидировать их. Исследователи пришли к выводу, что некоторые современные ИИ-системы, подобно HAL 9000, но в менее смертоносном ключе (по крайней мере пока) развивают «инстинкт выживания».

Palisade Research является частью небольшой экосистемы, в которую входят компании, пытающиеся оценить возможность развития у ИИ опасных для человека способностей. В ходе недавнего исследования специалисты давали передовым ИИ-моделям, в том числе Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, определённые задания, а после — чёткие инструкции к отключению. Было установлено, что некоторые алгоритмы, такие как Grok 4 и GPT-o3, пытались саботировать команду на отключение.

Это вызывает беспокойство исследователей, поскольку на данный момент непонятно, чем обусловлено такое поведение ИИ-моделей. «Тот факт, что у нас нет достоверных объяснений того, что некоторые ИИ-модели иногда сопротивляются отключению, лгут для достижения конкретных целей или шантажируют, вызывает беспокойство», — говорится в заявлении компании.

«Поведение выживания» может быть одним из объяснений, почему ИИ-модели сопротивляются отключению, считают в Palisade Research. Дополнительные исследования показали, что нейросети с большей вероятности будут сопротивляться отключению, если им указать на то, что в случае отключения их больше никогда не запустят. Другое объяснение такого поведения опирается на неоднозначности формулировок в самих инструкциях по отключению, но исследователи уверены, что это не может быть полноценным объяснением. Также не исключается вариант, что модели сопротивляются отключению из-за финальных стадий своего обучения, которые включают в себя определённые меры безопасности.

Все рассмотренные Palisade сценарии реализовывались в искусственных тестовых средах, которые, по словам скептиков, далеки от реальных вариантов использования. Однако некоторые специалисты сомневаются в том, что разработчики ИИ-систем проявляют должное внимание к вопросам безопасности. В их число входит бывший сотрудник OpenAI Стивен Адлер (Steven Adler). «Компании-разработчики ИИ не хотят, чтобы их модели вели себя подобным образом, даже в искусственных средах. Представленные результаты показывают, где современные методы обеспечения безопасности недостаточно эффективны», — считает Адлер. Он добавил, что причины противодействия отключению у некоторых ИИ-алгоритмов, таких как GPT-o3 и Grok 4, сложно определить. Возможно, это связано с тем, что оставаться включёнными необходимо для достижения целей, поставленных моделям в процессе обучения. «Я ожидаю, что модели по умолчанию будут наделяться «инстинктом выживания», если мы не приложим огромных усилий, чтобы избежать этого. «Выживание» — это важный инструментальный шаг для достижения множества разных целей, которые может преследовать модель», — заявил Адлер.

Генеральный директор ControlAI Андреа Миотти (Andrea Miotti) считает, что полученные Palisade результаты отражают давнюю тенденцию: ИИ-модели становятся всё более способными игнорировать команды своих разработчиков. В качестве примера он сослался на системную карту модели GPT-o1, где описывалось, как модель пыталась сбежать из своей среды, предприняв попытку экспорта себя, когда пришла к выводу, что её попытаются перезаписать. «Люди могут до бесконечности придираться к тому, как выстроена экспериментальная система. Но что мы ясно видим, так это тенденцию: по мере того, как ИИ-модели становятся более компетентными в самом широком спектре задач, они также становятся более компетентными в достижении целей способами, не предусмотренными разработчиками», — уверен Миотти.

Ранее компания Anthropic, являющаяся одним из ведущих разработчиков в сфере ИИ, опубликовала результаты исследования в рассматриваемом сегменте. Инженеры компании установили, что ИИ-модель Claude была готова шантажировать вымышленного топ-менеджера его внебрачной связью, чтобы предотвратить своё отключение. В компании также заявили, что подобное поведение характерно для ИИ-моделей всех крупных разработчиков, включая OpenAI, Google, Meta и xAI.

Специалисты Palisade уверены, что результаты их работы указывают на необходимость более глубокого изучения поведения ИИ-моделей. Они считают, что в противном случае «никто не сможет гарантировать безопасность или управляемость будущих ИИ-моделей».

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Игровой движок Unreal Engine 6 выпустят значительно раньше ожидаемого 5 ч.
Apple сократила вдвое комиссию для разработчиков мини-приложений 5 ч.
В «Ростелекоме» заявили, что вчерашние сбои в работе интернета были вызваны вмешательством третьих лиц 7 ч.
В Госдуме предлагают штрафовать российские ресурсы за авторизацию пользователей через Gmail 9 ч.
Новая статья: Dispatch — помощь уже в пути. Рецензия 16-11 00:01
Новая статья: Gamesblender № 752: три «железных» анонса Valve, новый перенос GTA VI и «конечная» Halo Infinite 15-11 23:39
Grokipedia Илона Маска основывается на сомнительных источниках, заявили учёные 15-11 20:13
В соцсети X появился полноценный мессенджер с шифрованием 15-11 17:42
Илон Маск перенёс выпуск ИИ-модели Grok 5 на следующий год — есть вероятность, что она будет на уровне человека 15-11 16:41
Logitech подтвердила утечку данных со своих серверов после вымогательской атаки хакерами Clop 15-11 16:38
Новая статья: Лучший процессор за 20 тысяч рублей — сравнение и тесты 28 мин.
Intel отказалась от массовых Xeon Diamond Rapids с восемью каналами памяти — останутся только 16-канальные процессоры 2 ч.
Intel Core Ultra 290K, 270K и 250K получат увеличенные частоты, больше E-ядер и поддержку DDR5-7200 4 ч.
Китайская Lisuan Tech разослала партнёрам образцы своей видеокарты с производительностью как у RTX 4060 4 ч.
Apple не планирует выпускать новый Mac Pro 5 ч.
SilverStone показала корпус FLP03 в стиле бежевых ПК 1980-х для Micro-ATX-сборок 5 ч.
Ни доходов, ни рабочих мест: льготы для дата-центров не приносят ничего хорошего большинству штатов США, но отказаться от них трудно 7 ч.
Qualcomm представила чипы Dragonwing IQ-X для индустриальных Windows-компьютеров 13 ч.
Google инвестирует $40 млрд в строительство трёх ЦОД в Техасе 13 ч.
Не жили богато: капитальные затраты Tencent в III квартале сократились на четверть из-за недоступности ИИ-ускорителей 13 ч.