Сегодня 03 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
The Outer Worlds 2 и Avowed не оправдали ожиданий Microsoft, но это не конец для Obsidian 35 мин.
OpenAI бросила все силы на улучшение ChatGPT — и потеряла многих ведущих разработчиков 47 мин.
PayPal обзавёлся новым гендиректором — это бывший глава HP Энрике Лорес 2 ч.
Тратили больше, играли меньше: Epic Games Store подвёл итоги 2025 года 2 ч.
Новым курсом: российские ИБ-вендоры изучают перспективы выхода на рынки Китая и Индии 3 ч.
Китай вырвался вперёд: в шестёрке лучших открытых ИИ-моделей в мире не осталось американских 3 ч.
Kingdom Come: Deliverance, High on Life 2, Avatar: Frontiers of Pandora: Microsoft раскрыла главные новинки Game Pass в первой половине февраля 3 ч.
Microsoft начала раннее тестирование Windows 11 26H2 — а пока «основным местом для новых функций» останется версия 25H2 3 ч.
Всего 3,3 % пользователей Microsoft 365 согласились платить за Copilot 3 ч.
Датамайнер: Half-Life 3 станет «самой оптимизированной игрой, которую когда-либо выпускала Valve» 4 ч.
В межзвёздной среде впервые нашли сложное соединение серы — ещё одно свидетельство космического происхождения органики 3 ч.
В Китае запретили электромобили с выдвижными дверными ручками 3 ч.
OpenAI не устроили чипы NVIDIA для инференса, теперь она ищет альтернативы 4 ч.
Apple захватила 69 % американского рынка смартфонов — у Samsung в пять раз меньше 5 ч.
Xiaomi выпустила на глобальный рынок 27-дюймовый 200-Гц FHD-монитор G27i 2026 за $157 6 ч.
«Шоковая заморозка» для серверов: китайские учёные научились охлаждать системы ИИ за 20 секунд без фреона 6 ч.
Сделка на триллион с четвертью: SpaceX приобрела xAI 6 ч.
«Байкал Электроникс» открыл свободный доступ к документации на серийный микроконтроллер Baikal-U 7 ч.
Спутник-платформа RuVDS для разработки космического ПО успешно выведен на орбиту 7 ч.
В Китае создали компактный твердотельный лазер для ранее недоступного VUV-диапазона — выиграют наука, космос и чипмейкеры 8 ч.