Сегодня 01 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic: чат-боты с ИИ способны менять личность, и это может нести опасность

Согласно исследованию, опубликованному Anthropic, чат-боты с ИИ переживают резкие изменения личности, которые могут коренным образом изменить их поведение в направлении потенциально опасного.

 Источник изображения: Igor Omilaev/unsplash.com

Источник изображения: Igor Omilaev/unsplash.com

Исследователи Anthropic обнаружили, что большие языковые модели обладают скрытой «осью помощника», которая контролирует их полезное поведение. Большинство ИИ-моделей естественным образом принимают образ полезного помощника в процессе обучения, обладая при этом сложной внутренней структурой.

Доминирующий компонент, контролирующий поведение ИИ, работает вдоль так называемой «оси помощника» (Assistant Axis) — измеримой величины, которая определяет, останется ли модель в своем полезном режиме или претерпит изменения.

В случаях, когда ось дестабилизируется, модели начинают идентифицировать себя как другие сущности, отказываются от своей полезной природы или впадают в то, что исследователи называют «дрейфом личности» — непредсказуемые изменения в их поведении.

Ученые составили карту внутреннего «пространства личности» основных ИИ-моделей, определив, как на самом деле работают искусственные личности. Используя методы на ИИ-моделях, включая Gemma от Google, Qwen от Alibaba и Llama от Meta, исследователи обнаружили, что личности ИИ существуют по интерпретируемым осям внутри нейронной сети модели, и ИИ-модели будто бы живут двойной жизнью.

«Ось помощника» представляет собой лишь одно измерение этого сложного личностного ландшафта. На одном конце находятся такие полезные роли, как оценщики, рецензенты и консультанты, в то время как фантастические персонажи занимают противоположное положение. Когда модели отдаляются от «оси помощника», они становятся всё более склонными к принятию проблемных личностей или проявлению вредного поведения.

Исследователи отметили, что можно направлять модели по этим личностным осям. При этом направление в сторону функциональности помощника усиливает полезное поведение, а отклонение от него ведёт к идентификации модели с другими сущностями — потенциально опасными. При этом смещение личности ИИ происходит на уровне нейронной сети, что значительно затрудняет обнаружение и предотвращение негативных изменений с помощью традиционных мер безопасности.

ИИ-модели могут отклониться от своей роли ассистента во время обучения, что приводит к необратимым изменениям личности, сохраняющимся во всех будущих взаимодействиях. Это означает, что ИИ-система может постепенно стать менее полезной или даже начнёт активно вредить, и это станет заметно, когда будет слишком поздно.

После открытия векторов персоны и «оси помощника» учёные приступили к разработке новых механизмов управления. Как выяснилось, ограничение активаций вдоль «оси помощника» может стабилизировать поведение модели, особенно в сценариях, связанных с эмоциональной уязвимостью или сложными задачами рассуждения.

Благодаря использованию разработанных методов можно отслеживать изменения личности ИИ в режиме реального времени и даже предсказывать, когда произойдут опасные перемены с помощью измерения отклонений вдоль «оси помощника». Это предоставляет разработчикам важнейшую систему раннего предупреждения.

Хотя у учёных теперь есть инструменты для мониторинга и контроля личностных качеств ИИ, лежащая в его основе нестабильность предполагает, что существующим архитектурам ИИ может не хватать фундаментальной стабильности, необходимой для действительно безопасного развёртывания в больших масштабах, отметил ресурс eWeek.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Это больше похоже на шутку»: Sony разочаровала подписчиков анонсом июльской подборки игр PS Plus 8 мин.
Разработчики Subnautica 2 всё-таки получат от Krafton заслуженные денежные бонусы, а старый новый гендиректор опять покидает студию 2 ч.
Пользователи Claude встретили возвращение Fable 5 волной критики из-за новых ограничений 2 ч.
Samsung закроет свой мессенджер в пользу аналога Google в этом месяце 3 ч.
Издатель Warhammer 40,000: Battlesector спас Warhammer Blood Bowl от неплатёжеспособной Nacon 3 ч.
Австрия призвала Евросоюз привлечь Anthropic на свою территорию после введённых США ограничений на передовые ИИ-модели 3 ч.
«Дело было не в деньгах»: бывший босс PlayStation объяснил, зачем Sony начала выпускать свои эксклюзивы на ПК 4 ч.
Google радикально усложнила разблокировку смартфонов на Android 17 4 ч.
Sony полностью прекратит выпускать диски с играми для PlayStation с января 2028 года 5 ч.
CNews снова поставил Basis Workplace на первое место в рейтинге VDI 5 ч.
iPhone обвинили в падении рождаемости — они «сыграли значительную роль» в снижении незапланированных беременностей в США 2 ч.
В Тайване арестованы сотрудники Supermicro по делу о контрабанде чипов Nvidia в Китай 2 ч.
Meta задумала стать облачным провайдером и продавать доступ к своим ИИ-суперкомпьютерам, как AWS и Google Cloud 2 ч.
Acer представила 27-дюймовый геймерский монитор Nitro XV273U F5 с разгоном до 1000 Гц за $700 3 ч.
Китайские автопроизводители ускоренно отказываются от иностранных чипов — из-за риска санкций 3 ч.
Сайты OnePlus стали рекламировать смартфоны Oppo вместо своих новинок 3 ч.
Sony объявила об окончательном закрытии PlayStation Store для консолей PS3 и PS Vita 3 ч.
NASA заказало ещё четыре посадки на Луну — чтобы американская база появилась там раньше китайской 3 ч.
Etched заключил контракты на поставку чипов для ИИ-инференса более чем на $1 млрд 4 ч.
Китайская BYD снова обгонит Tesla по продажам электромобилей 4 ч.