Сегодня 10 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft исправила три опасные уязвимости нулевого дня и ещё 200 багов в своём ПО 4 ч.
ИИ помог обновить драйверы для AMD Radeon почти 20-летней давности 5 ч.
Orion soft представил платформу StarGuard AI для безопасной работы с ИИ 5 ч.
В ядре Linux нашли серьёзную уязвимость, созданную всего одним лишним символом в коде 7 ч.
Meta будет использовать активность пользователей на других сайтах для персонализации их лент и ответов ИИ 8 ч.
Nintendo подтвердила ремейк легендарной The Legend of Zelda: Ocarina of Time эксклюзивно для Switch 2 8 ч.
«Всё по-честному, без обмана»: Сулейман из Microsoft отказался от своих слов о полной замене офисных сотрудников ИИ 9 ч.
Dragon’s Dogma 2 всё-таки получит большое дополнение и улучшения оптимизации — первый трейлер и детали Dragon's Dogma 2: Dark Arisen 9 ч.
Роскомнадзор и Минцифры увидели основания для разблокировки Roblox в России 10 ч.
Закон един для всех: ЕС отказался делать исключение из DMA для новой Siri AI от Apple 10 ч.
Новая статья: Обзор игрового ноутбука ASUS ROG Zephyrus G14 GU405: пример удачной погони за двумя зайцами 4 ч.
NASA представило экипаж луной миссии Artemis 3, но до Луны он не доберётся 6 ч.
Финская твердотельная чудо-батарея Donut Lab оказалась фикцией — и способом выманить $25 млн у инвесторов 6 ч.
MaxSun выпустила низкопрофильную GeForce RTX 5060 с тройкой вентиляторов за $501 8 ч.
В AMD предсказали, что цены на DDR5 вернутся в норму только через два года 8 ч.
Спутниковый Wi-Fi на борту авиалайнеров станет важным «полем битвы» между SpaceX Starlink и Amazon Leo 9 ч.
NVIDIA поможет SK hynix, Naver, Doosan, SK Telecom и LG расширить ИИ-инфраструктуру Южной Кореи 10 ч.
Oriole Networks и AMD успешно запустили ИИ-сеть на фотонных технологиях, но пока в лабораторных условиях 10 ч.
Геймерский смартфон-слайдер Ayaneo показался в видеообзоре до старта продаж 10 ч.
Samsung Foundry может впервые за четыре года выйти на прибыль 12 ч.