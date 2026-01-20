Сегодня 20 января 2026
18+
MWC 2018 2018 Computex IFA 2018
3DNews Новости Software Искусственный интеллект, машинное обучен... Anthropic: чат-боты с ИИ способны менять...
реклама
Новости Software
Самое интересное в обзорах

Anthropic: чат-боты с ИИ способны менять личность, и это может нести опасность

Согласно исследованию, опубликованному Anthropic, чат-боты с ИИ переживают резкие изменения личности, которые могут коренным образом изменить их поведение в направлении потенциально опасного.

Источник изображения: Igor Omilaev/unsplash.com

Источник изображения: Igor Omilaev/unsplash.com

Исследователи Anthropic обнаружили, что большие языковые модели обладают скрытой «осью помощника», которая контролирует их полезное поведение. Большинство ИИ-моделей естественным образом принимают образ полезного помощника в процессе обучения, обладая при этом сложной внутренней структурой.

Доминирующий компонент, контролирующий поведение ИИ, работает вдоль так называемой «оси помощника» (Assistant Axis) — измеримой величины, которая определяет, останется ли модель в своем полезном режиме или претерпит изменения.

В случаях, когда ось дестабилизируется, модели начинают идентифицировать себя как другие сущности, отказываются от своей полезной природы или впадают в то, что исследователи называют «дрейфом личности» — непредсказуемые изменения в их поведении.

Ученые составили карту внутреннего «пространства личности» основных ИИ-моделей, определив, как на самом деле работают искусственные личности. Используя методы на ИИ-моделях, включая Gemma от Google, Qwen от Alibaba и Llama от Meta, исследователи обнаружили, что личности ИИ существуют по интерпретируемым осям внутри нейронной сети модели, и ИИ-модели будто бы живут двойной жизнью.

«Ось помощника» представляет собой лишь одно измерение этого сложного личностного ландшафта. На одном конце находятся такие полезные роли, как оценщики, рецензенты и консультанты, в то время как фантастические персонажи занимают противоположное положение. Когда модели отдаляются от «оси помощника», они становятся всё более склонными к принятию проблемных личностей или проявлению вредного поведения.

Исследователи отметили, что можно направлять модели по этим личностным осям. При этом направление в сторону функциональности помощника усиливает полезное поведение, а отклонение от него ведёт к идентификации модели с другими сущностями — потенциально опасными. При этом смещение личности ИИ происходит на уровне нейронной сети, что значительно затрудняет обнаружение и предотвращение негативных изменений с помощью традиционных мер безопасности.

ИИ-модели могут отклониться от своей роли ассистента во время обучения, что приводит к необратимым изменениям личности, сохраняющимся во всех будущих взаимодействиях. Это означает, что ИИ-система может постепенно стать менее полезной или даже начнёт активно вредить, и это станет заметно, когда будет слишком поздно.

После открытия векторов персоны и «оси помощника» учёные приступили к разработке новых механизмов управления. Как выяснилось, ограничение активаций вдоль «оси помощника» может стабилизировать поведение модели, особенно в сценариях, связанных с эмоциональной уязвимостью или сложными задачами рассуждения.

Благодаря использованию разработанных методов можно отслеживать изменения личности ИИ в режиме реального времени и даже предсказывать, когда произойдут опасные перемены с помощью измерения отклонений вдоль «оси помощника». Это предоставляет разработчикам важнейшую систему раннего предупреждения.

Хотя у учёных теперь есть инструменты для мониторинга и контроля личностных качеств ИИ, лежащая в его основе нестабильность предполагает, что существующим архитектурам ИИ может не хватать фундаментальной стабильности, необходимой для действительно безопасного развёртывания в больших масштабах, отметил ресурс eWeek.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
Россия заняла 119-е место в мире по проникновению ИИ — ниже Беларуси и Нигера, но выше Армении и Зимбабве
ByteDance внезапно стала второй силой на рынке облачных ИИ-систем в Китае
OpenAI подтвердила, что представит свой первый ИИ-гаджет во втором полугодии
Молодые сотрудники больше опытных обеспокоены конкуренцией со стороны ИИ
«Окно в преступный мир»: Британия обвинила Facebook✴ и Instagram✴ в рекламе нелегальных казино — Meta✴ пообещала исправиться
Конфликт был личным, а не профессиональным: Wired раскрыла причины раскола в Thinking Machines Lab
Теги: anthropic, ии, исследование
anthropic, ии, исследование
← В прошлое В будущее →

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

© 1997—2026 Электронное периодическое издание "3ДНьюс" | Свидетельство о регистрации СМИ Эл ФС 77-22224

выдано Федеральной Службой по надзору за соблюдением законодательства в сфере массовых коммуникаций и охране культурного наследия

При цитировании документа ссылка на сайт с указанием автора обязательна. Полное заимствование документа является нарушением
российского и международного законодательства и возможно только с согласия редакции 3DNews.

Яндекс.Метрика

window-new
Контакты Поиск Реклама О сайте
Soft
Hard
Тренды 🔥
Власти Индии обязали производителей смартфонов, включая Apple и Samsung, предустанавливать неудаляемое государственное приложение
Стример первым в мире прошёл Escape from Tarkov — он сбежал из Таркова, но какой ценой?
Чудеса оптимизации: разработчики Helldivers 2 сократили размер игры на ПК со 154 до 23 Гбайт почти без вреда для скорости загрузок
В OpenAI введён «красный код»: Альтман требует бросить все силы на срочное улучшение ChatGPT
На Солнце вызревает аномальная активность — она может закончиться «чёрным лебедем»
10 тысяч модов и 350 миллионов загрузок: Larian похвасталась новыми достижениями игроков Baldur’s Gate 3 6 ч.
Вызывающий привыкание роглайк Ball x Pit достиг миллиона проданных копий и в 2026 году получит новые шары 7 ч.
Соавтор Counter-Strike признался в любви к русской культуре и рассказал о «самом депрессивном» периоде за 25 лет карьеры 9 ч.
Apple резко снизила награды багхантерам — при этом рост вредоносов в macOS бьёт рекорды 9 ч.
Mortal Kombat 1, Routine и Dome Keeper возглавили первую волну декабрьских новинок Game Pass, а Mortal Kombat 11 скоро подписку покинет 10 ч.
Google закрыла 107 дыр в Android — две нулевого дня уже использовались в атаках 10 ч.
В YouTube появился Recap — пользователям расскажут, чем они занимались на платформе в течение года 10 ч.
ИИ-агенты научились взламывать смарт-контракты в блокчейне — это риск на сотни миллионов долларов 10 ч.
Инструмент YouTube для защиты блогеров от дипфейков создал риск утечки их биометрии 11 ч.
В Microsoft Teams появились «иммерсивные встречи» в метавселенной с аватарами без ног 11 ч.
Новая статья: Обзор смартфона realme GT 8 Pro: модульный флагман с очень крутой камерой 4 ч.
AWS «сдалась на милость» NVIDIA: анонсированы ИИ-ускорители Trainium4 с шиной NVLink Fusion 4 ч.
Новая статья: Обзор телевизора HARPER 55Q970TS: QD Mini LED — в массы! 5 ч.
iPhone 18 придётся ждать дольше обычного — аналитики предрекают крупнейшее падение поставок Apple за годы 5 ч.
Экс-глава Intel выбил $150 млн от США на разработку прорывного EUV-источника — конкурента системам ASML 7 ч.
Samsung и SK hynix решили сделать всё, чтобы дефицит DRAM не прекращался 8 ч.
Слепому человеку впервые вернули зрение с помощью напечатанной на 3D-принтера роговицей 10 ч.
ИИ сломал Big Tech: золотое правило «трать мало, зарабатывай много» больше не работает 11 ч.
Тайвань обвинил Tokyo Electron в допущении кражи секретных технологий TSMC 11 ч.
Российская ИИ-система Delta Sprut XL поддерживает до 25 GPU 11 ч.