Сегодня 30 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Goodnight Universe — колыбельная для крошки. Рецензия 7 ч.
Новая статья: Gamesblender № 754: кризис на рынке памяти, Pioner не для российского Steam и 20-летие Xbox 360 7 ч.
«Мы просто поражены приёмом»: авторы олдскульного хоррора Tormented Souls 2 продали свыше 100 тыс. его копий и занялись первым DLC 13 ч.
Роскомнадзор увидел в Roblox угрозу детям — на платформе нашли неподобающий контент 14 ч.
Asus предупредила об очередной критической уязвимости в маршрутизаторах с AiCloud 15 ч.
Infinix проведёт в декабре турнир по PUBG Mobile, для участия в котором нужно быть студентом вуза или ссуза России 16 ч.
Президент Signal призвала не спешить с внедрением ИИ в мессенджерах 16 ч.
ИИ-модель DeepseekMath-V2 достигла уровня золотой медали на Международной математической олимпиаде 17 ч.
Практическое использование ИИ в работе остаётся весьма неравномерным 23 ч.
Новая статья: PowerWash Simulator 2 — опять работать. Рецензия 29-11 00:01
Micron инвестирует $9,6 млрд в завод по производству памяти HBM в Японии 6 ч.
Первый в мире частный научный спутник успешно выведен в космос — он будет изучать звёзды в ультрафиолете 12 ч.
Главы технологических компаний наперебой заговорили о ЦОД в космосе 13 ч.
В 2027 году Intel может наладить выпуск процессоров Apple M по техпроцессу 18A-P 14 ч.
Samsung выпустила внешние SSD T7 Resurrected с ударопрочным корпусом из вторсырья и скоростью до 1050 Мбайт/с 15 ч.
Битва за Северную Европу: Digital Realty и Equinix борются за покупку скандинавского оператора ЦОД atNorth за €4,5 млрд 15 ч.
Asustor представила десктопные NAS Lockerstor Gen2+ с двумя портами 5GbE и чипом Intel Jasper Lake 16 ч.
MGX-сервер MSI CG480-S6053 получил чипы AMD EPYC Turin и восемь слотов PCIe 5.0 x16 для FHFL-карт двойной ширины 16 ч.
OpenAI не выйдет на прибыльность до 2030 года, но потребует $207 млрд на развитие 16 ч.
Благодаря Google и ИИ акции MediaTek показали лучшую неделю с 2002 года 16 ч.