Сегодня 11 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Бывший президент Blizzard предсказал, что Battlefield 6 «раздавит» Call of Duty: Black Ops 7, и все от этого выиграют 55 мин.
Создатели Delta Force анонсировали хоррор-шутер Crossfire: Rainbow — геймплейный трейлер и первые подробности 2 ч.
Раздача кооперативного боевика Guntouchables в Steam превзошла все ожидания разработчиков, но играют меньше 1 % от скачавших 2 ч.
Ubisoft проговорилась о сериале Far Cry от создателей «Фарго» и «В Филадельфии всегда солнечно» 4 ч.
VI Форум «Мой бизнес» в Архангельске: предприниматели, эксперты и представители власти обсудят рост в новых условиях 5 ч.
«Странно для публичной компании отказываться от лёгких денег»: Electronic Arts забраковала ремейк Dragon Age: Origins и ремастер трилогии 6 ч.
Открытый бета-тест Battlefield 6 стал крупнейшим в серии — шутер вошёл в топ-20 самых популярных игр Steam 16 ч.
Поумневшая Siri появится только к весне 2026 года — вместе с углубленной интеграцией сторонних приложений 20 ч.
Хакеры заполонили Facebook замаскированными в SVG-изображениях вирусами 21 ч.
ИИ в Firefox загружает CPU до предела и быстро разряжает ноутбуки, пожаловались пользователи 10-08 13:51
Одна из самых дорогих RTX 5090: Asus оценила GeForce RTX 5090 ROG Astral OC BTF с разъёмом GC-HPWR в €3084 14 мин.
Xiaomi отгрузила всего 6042 электромобиля YU7, хотя заказы превысили 200 000 единиц за три минуты 32 мин.
Продажи цифровых фотоаппаратов в России достигли максимума за пять лет 2 ч.
Китай развернул антирекламную кампанию против Nvidia H20 2 ч.
Honor выпустит в России ноутбук за 199 990 рублей — MagicBook Pro 16 HUNTER на флагманском Core Ultra 9 285H 3 ч.
Brookfield: в течение десяти лет мощность ИИ ЦОД вырастет на порядок, а расходы на ИИ-инфраструктуру превысят $7 трлн 3 ч.
Бывшая российская «дочка» Xerox начнёт выпускать принтеры и МФУ под собственным брендом 4 ч.
Цены на память DDR4 взлетят почти вдвое — дефицит сохранится до конца года 4 ч.
NVIDIA и AMD будут выплачивать правительству США 15 % выручки от продажи ИИ-ускорителей в Китае 4 ч.
SSD под контролем: консорциум NVM Express обновил спецификации, добавив быстрое восстановление после сбоев 5 ч.