Сегодня 06 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В ChatGPT сменилась базовая модель — теперь это быстрая GPT-5.5 Instant, которая меньше галлюцинирует 2 ч.
Сумбурный платформер Dark Scrolls от создателей Gato Roboto и Gunbrella не заставит себя долго ждать — дата выхода и новый геймплей 3 ч.
Прочувствуй Kingdom Come: Deliverance 2 по-новому: Warhorse выпустила духи с запахом Индржиха 5 ч.
Классическую Diablo едва не загубила налоговая — как Blizzard спасла легендарную экшен-RPG 6 ч.
«Яндекс» потратит до 50 млрд рублей на выкуп акций — ради мотивации сотрудников 7 ч.
ИИ-бот Claude удалось «разговорить» до вредоносного кода и рецептов взрывчатки — хотя напрямую о них даже не спрашивали 8 ч.
«Оглушительный успех»: менее чем за неделю в раннем доступе продажи Heroes of Might & Magic: Olden Era достигли 650 тысяч копий 8 ч.
Microsoft, xAI и Google согласились отдавать ИИ-модели властям США на проверку безопасности 9 ч.
Google повысила вознаграждение за обнаружение эксплойтов в Android до $1,5 млн 9 ч.
Google внедрит «аналог блокчейна» для проверки подлинности приложений и модулей Android 9 ч.
Новая статья: Обзор планшета DIGMA PRO Odyssey: самая бюджетная замена ноутбука 44 мин.
Intel расскажет о «кремниевых инновациях» и ИИ на выставке Computex 2026 55 мин.
Micron 6600 ION: самый ёмкий в мире QLC SSD вместимостью 245 Тбайт 2 ч.
Micron выпустила первый SSD ёмкостью 245 Тбайт — Micron 6600 ION для центров обработки данных 3 ч.
В Китае установили крупнейший в мире плавучий морской ветряк — с ротором площадью в семь футбольных полей 3 ч.
Актёр засветил грядущие наушники Sony WH-1000XX — премиальная модель обойдётся в $649 5 ч.
Bose представила линейку домашней акустики Lifestyle Ultra Collection — от $299 за колонку до $1099 за саундбар 7 ч.
Глава Nvidia: Китай не должен получать передовые ИИ-чипы Blackwell и Rubin — всё лучшее должно быть у США 8 ч.
По бумагам всё чисто: Малайзия стремительно становится хабом ИИ ЦОД, благодаря доступности чипов NVIDIA и лояльности к клиентам из Китая 8 ч.
Adata выпустила память с «бесконечным зеркалом» — XPG Novakey RGB DDR5 объёмом до 32 Гбайт и скоростью до 6400 МТ/с 9 ч.