Сегодня 30 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Terminator 2D: No Fate опять отправили в будущее — аркадный боевик по мотивам «Терминатор 2: Судный день» не выйдет 31 октября 10 мин.
OpenAI начала продвигать функцию онлайн-покупок непосредственно из чат-бота 2 ч.
Геймер собрал внутри Minecraft рабочий ChatGPT — на это ушло 439 млн блоков 10 ч.
В Steam стартовала грандиозная осенняя распродажа — скидку получили более 30 тысяч игр 11 ч.
Браузер Brave обновил фирменный ИИ-поиск: теперь он даёт развёрнутые ответы 12 ч.
Календарь релизов — 29 сентября – 5 октября: Ghost of Yotei, Train Sim World 6 и ремейк FF Tactics 13 ч.
Слухи: Embracer взялась за амбициозный боевик по «Властелину колец», который бросит вызов Hogwarts Legacy 14 ч.
В ChatGPT появился полный родительский контроль после трагической гибели подростка из США 15 ч.
Capcom оставит Monster Hunter Wilds, Rise и World на Windows 10 без поддержки, причём очень скоро 15 ч.
Electronic Arts уйдёт с биржи благодаря сделке на $55 миллиардов — компанию выкупят три инвестора, включая Суверенный фонд Саудовской Аравии 16 ч.
С подачи FCC конфиденциальные данные об устройстве Apple iPhone 16e утекли в сеть 7 мин.
Президент OpenAI убеждён, что в будущем за каждым человеком будет закреплён ускоритель ИИ 2 ч.
США упростили процесс выявления подставных компаний, позволяющих обходить санкции на поставки чипов и оборудования 4 ч.
В трекерах Tile выявили изъян, который позволяет вести слежку за их владельцами 5 ч.
MSI показала GeForce RTX 5070 Ti Ventus 3X со скрытым разъёмом питания 5 ч.
Раздувшаяся батарея Galaxy Ring сдавила палец и довела владельца до госпитализации 5 ч.
Новая статья: Обзор материнской платы Maxsun MS-eSport B850M WiFi Ice: «ледяная» скромность 8 ч.
Новая статья: Обзор блока питания Zalman TeraMax II SE 1000W (ZM1000-TMX2SE) 9 ч.
SanDisk выпустила WD_Black SN7100X — сертифицированный SSD для приставок ROG Xbox Ally и Ally X, а также карты памяти microSD 11 ч.
Куо предрёк Xiaomi 17 провал — поставки урезаны, а спасти положение могут только скидки 15 ч.