Сегодня 21 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Hell is Us — прекрасная диковинка. Рецензия 9 ч.
Jaguar Land Rover уже три недели не может запустить информационные системы после хакерского взлома 18 ч.
Microsoft представила радужный отчёт о Windows Arm, но основную проблему «замела под ковёр» 19 ч.
Microsoft «тестирует» ещё одну кнопку Copilot в Windows 11 19 ч.
Xiaomi раскрыла перечень, из которого ясно, какие устройства перейдут на HyperOS 3 и когда 22 ч.
Дональд Трамп планирует взыскать несколько миллиардов долларов с участников сделки по TikTok 20-09 05:59
Трамп заявил, что сделка с TikTok в целом одобрена китайской стороной 20-09 05:26
Новая статья: Borderlands 4 — сквозь нюансы к звёздам. Рецензия 20-09 00:07
«Не планируем оставаться в долгу»: российский хоррор No, I’m not a Human порадовал разработчиков продажами 19-09 22:50
Whiskerwood получила дату выхода в раннем доступе и демоверсию в Steam — это градостроительная стратегия, в которой коты поработили мышей 19-09 21:16
Дональд Трамп предложил американским компаниям платить по $100 000 в год за рабочие визы для сотрудников 3 ч.
Meta намерена стать энергокомпанией и продавать электричество — Amazon, Google и Microsoft уже делают то же самое 8 ч.
Meta готова потратить $20 млрд на аренду ИИ-мощностей у Oracle 8 ч.
Инопланетяне могут прослушивать наши радиосообщения на удалении десятков световых лет, выяснило NASA 12 ч.
Apple не обманула: iPhone Air подтвердил статус самого прочного смартфона компании 14 ч.
Предзаказы на Apple iPhone 17 бьют рекорды в России 17 ч.
Samsung наконец-то удалось сделать чипы HBM3E, которые устроили Nvidia 18 ч.
Малый ледниковый период отменяется: с 2008 года Солнце начало увеличивать активность 19 ч.
Сделка c Nvidia не повлияет на собственные планы Intel по выпуску процессоров и видеокарт 20 ч.
OpenAI потратит $100 млрд на аренду резервных ИИ-серверов у облачных провайдеров 20 ч.