Сегодня 20 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В российском Steam открылся предзаказ постапокалиптического боевика Beast of Reincarnation от создателей «Покемонов» 4 мин.
Дата выхода, актёрский состав и самый амбициозный проект A24: раскрыты новые подробности фильма по Elden Ring 29 мин.
Microsoft повысила скорость и производительность «Проводника» в Windows 11 46 мин.
Релиз российской облачной платформы KeyStack 2026.1: расширенная Enterprise-функциональность и архитектура Secure by Default 47 мин.
Vitality разгромила Spirit в финале IEM Rio 2026 и выиграла $1 млн в золотых слитках в гонке Grand Slam 5 ч.
Спустя 28 лет фанаты раскрыли «один из старейших» секретов The Elder Scrolls — что скрывается под женскими юбками в Redguard 5 ч.
Регуляторы увидели в ИИ-модели Anthropic Mythos угрозу для банковской системы 6 ч.
Продажи пиратского симулятора выживания Windrose превысили 1 млн копий, а пиковый онлайн в Steam — 222 тыс. игроков 6 ч.
Capcom похвасталась «мощным стартом» Pragmata — миллион проданных копий за два дня 6 ч.
Инсайдер: Far Cry 7 угодила в «ад», ремейк Splinter Cell не выйдет в 2026 году, а Assassin’s Creed Black Flag Resynced покажут 23 апреля 8 ч.
Ещё капельку: XPO-модули повысят плотность сетей в ИИ ЦОД, но CPO всё равно не избежать 22 мин.
Huawei представила смарт-часы Watch Fit 5 и Fit 5 Pro c измерением ЭКГ и уровня сахара в крови 43 мин.
Гиперскейлеры убедили Евросоюз, что экологические показатели ЦОД — это коммерческая тайна 3 ч.
Huawei представила смартфон Pura 90 — тройная камера, 6,8" экран, 7-мм корпус и аккумулятор на 6500 мА·ч 3 ч.
Huawei представила широкоформатный складной смартфон Huawei Pura X Max с чипом Kirin 9030 Pro и ценой от $1615 3 ч.
Huawei представила флагман Pura 90 Pro Max с 200-Мп зум-камерой почти за $1000 и версию Pura 90 Pro подешевле 4 ч.
Набирающий силу профсоюз Samsung намерен запустить 18-дневную забастовку в мае 5 ч.
На IMEI сто рублей: новый закон может сделать смартфоны в России дороже, но операторы уже готовы распорядиться деньгами 5 ч.
Для самых мощных видеокарт: Micron начала поставки 3-Гбайт чипов GDDR7 со скоростью 32 Гбит/с 5 ч.
DEScycle поможет Cisco восстанавливать металлы из её оборудования 5 ч.