Сегодня 25 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ChatGPT научился давать прогноз погоды на срок до 10 дней с помощью AccuWeather 11 мин.
Апскейлер PSSR 2 для PlayStation 5 имеет общие корни с технологией масштабирования AMD FSR, но использует иную реализацию 51 мин.
И так сойдёт: Тодд Говард объяснил, почему в The Elder Scrolls IV: Oblivion Remastered сохранились многие баги из оригинальной игры 2 ч.
Вышла macOS Tahoe 26.4 с компактной панелью вкладок Safari, лимитами заряда батареи и другими нововведениями 2 ч.
Apple объединит управление устройствами и бизнес-инструменты в одной платформе — Apple Business 3 ч.
ФАС не будет штрафовать за рекламу в Telegram и YouTube до конца 2026 года 3 ч.
Разработчик «Мира танков» и «Мира кораблей» задолжал государству более 11 миллиардов рублей 4 ч.
Конец эпохи: Xiaomi отправила на пенсию MIUI — оболочку, которая прославила компанию 5 ч.
Минцифры хочет фильтровать весь трафик Рунета — средства блокировки разгонят в 2,5 раза к 2030 году 5 ч.
Apple выпустила iOS 26.4 и iPadOS 26.4 с новыми эмодзи и функциями 5 ч.
NextEra построит газовые электростанции на 10 ГВт для ИИ ЦОД в США 3 мин.
В России начались продажи планшета Honor Pad X8b с ёмкой батареей и большим экраном по цене от 16 тыс. рублей 15 мин.
Через два года США первыми в истории запустят корабль с ядерным двигателем за пределы земной орбиты — к Марсу 34 мин.
Microsoft получит 700 МВт в ИИ ЦОД Crusoe, от которых отказались Oracle и OpenAI 46 мин.
Amazon поглотила стартап Fauna — он выпустил домашнего робота размером с ребёнка 46 мин.
Гагарин получил 512 ИИ-ускорителей B300 — Eleveight AI развернула чипы NVIDIA в 2-МВт ЦОД в Армении 48 мин.
Volkswagen объявила отзыв почти 100 000 электромобилей из-за дефекта тяговых батарей 50 мин.
Sony передумала выпускать электромобили — совместная с Honda разработка Afeela остановлена 2 ч.
Всё на нужды ИИ: OpenAI привлечёт ещё $10 млрд от мелких инвесторов 2 ч.
Samsung собралась построить вторую фабрику в Техасе, которая будет выпускать передовые чипы 3 ч.