Сегодня 19 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Официальный сайт Highguard вышел из строя и не работает уже больше суток, но не потому, что студия закрывается 8 ч.
Copilot роется в конфиденциальных письмах пользователей в обход защиты — Microsoft назвала это багом 9 ч.
Из лучших побуждений: Gemini солгал о сохранении медицинских данных пользователя, чтобы его утешить 9 ч.
Разработчики Escape from Tarkov раскрыли планы на развитие игры в первой половине 2026 года и выпустили озвучку от Никиты Буянова 9 ч.
Firefox вот-вот лишится поддержки Windows 7 и 8 — Mozilla советует срочно обновить ОС 10 ч.
Киберпанковый боевик Replaced опять перенесли — на этот раз из-за демоверсии в Steam 10 ч.
«Яндекс» рассказал, как сэкономил 4,8 млрд рублей на обучении ИИ без потери качества 10 ч.
Discord будет применять возрастную цензуру с помощью ИИ, за которым будут перепроверять люди 11 ч.
Разработчики «Войны Миров: Сибирь» объяснили, почему ушли из 1C Game Studios, и нацелились продать миллион копий игры в России 11 ч.
Лабораторные атаки показали уязвимости в менеджерах паролей LastPass, Bitwarden и Dashlane — ими пользуются 60 млн человек 12 ч.
NZXT представила компактный корпус H2 Flow и блок питания C850 SFX 5 ч.
Неуловимая чёрная дыра промежуточной массы выдала себя, в клочья разорвав белого карлика 9 ч.
Google представила Pixel 10a — смартфон среднего уровня с дизайном, характеристиками и ценой Pixel 9a 9 ч.
Власти Индии закупят ещё 20 тыс. ускорителей NVIDIA для ускорения развития ИИ в стране 10 ч.
Hisense открыла в Москве фирменный магазин в формате shop-in-shop 10 ч.
В Швеции показали в деле зарядку на 1,2 МВт для электромобилей — и мороз не помешал 10 ч.
Топ-менеджер Intel: в половине отгруженных в этом году ПК будет ускоритель ИИ 11 ч.
ПК-версию Cyberpunk 2077 запустили на Android — RedMagic 11 Pro справился на 30–40 FPS 13 ч.
Китайский конкурент Neuralink сообщил о первых успехах — пациент с имплантом научился управлять курсором за 5 дней 14 ч.
Wavepiston построит на Барбадосе волновую электростанцию на 50 МВт, каких мир ещё не видел 14 ч.