Сегодня 19 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Чат-бот Claude AI станет прекращать «вредоносные или оскорбительные диалоги с пользователями»

Anthropic научила свой чат-бот Claude AI прекращать общение, которое он сочтёт «вредоносным или оскорбительным». Эта возможность уже доступна в моделях Opus 4 и 4.1. Она позволит чат-боту завершать разговоры в качестве крайней меры после неоднократных попыток пользователя сгенерировать вредоносный или оскорбительный контент. Anthropic хочет добиться «потенциального благополучия» моделей ИИ, прекращая беседы, в которых Claude испытывает «явный дискомфорт».

 Источник изображения: Anthropic

Источник изображения: Anthropic

После прекращения диалога со стороны Claude, пользователь не сможет отправлять новые сообщения в этом чате, но создание новых чатов будет по-прежнему доступно. Anthropic отметила, что разговоры, вызывающие подобную реакцию, являются «крайними случаями», добавляя, что большинство пользователей не столкнутся с этим препятствием даже при обсуждении спорных тем.

В ходе тестирования Claude Opus 4 у чат-бота было отмечено «стойкое и последовательное отвращение к причинению вреда», в том числе к созданию сексуального контента с участием несовершеннолетних, насильственным действиям и терроризму. В этих случаях, по данным Anthropic, Claude демонстрировал «явную тревожность» и «тенденцию прекращать вредоносные разговоры, когда предоставлялась такая возможность».

Claude получил прямое указание не завершать разговоры, если пользователь проявляет признаки желания причинить «неминуемый вред» себе или другим. В таких случаях Anthropic привлекает онлайн-сервис кризисной поддержки Throughline, чтобы помочь разработать ответы на запросы, связанные с самоповреждением и психическим здоровьем.

На прошлой неделе Anthropic обновила политику использования своего чат-бота, поскольку быстро развивающиеся модели ИИ вызывают всё больше опасений по поводу безопасности. Теперь компания запрещает использовать Claude для разработки биологического, ядерного, химического или радиологического оружия, а также для разработки вредоносного кода или эксплуатации уязвимостей сети.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Официальный сайт Highguard вышел из строя и не работает уже больше суток, но не потому, что студия закрывается 8 ч.
Copilot роется в конфиденциальных письмах пользователей в обход защиты — Microsoft назвала это багом 9 ч.
Из лучших побуждений: Gemini солгал о сохранении медицинских данных пользователя, чтобы его утешить 9 ч.
Разработчики Escape from Tarkov раскрыли планы на развитие игры в первой половине 2026 года и выпустили озвучку от Никиты Буянова 9 ч.
Firefox вот-вот лишится поддержки Windows 7 и 8 — Mozilla советует срочно обновить ОС 10 ч.
Киберпанковый боевик Replaced опять перенесли — на этот раз из-за демоверсии в Steam 10 ч.
«Яндекс» рассказал, как сэкономил 4,8 млрд рублей на обучении ИИ без потери качества 10 ч.
Discord будет применять возрастную цензуру с помощью ИИ, за которым будут перепроверять люди 11 ч.
Разработчики «Войны Миров: Сибирь» объяснили, почему ушли из 1C Game Studios, и нацелились продать миллион копий игры в России 11 ч.
Лабораторные атаки показали уязвимости в менеджерах паролей LastPass, Bitwarden и Dashlane — ими пользуются 60 млн человек 12 ч.
NZXT представила компактный корпус H2 Flow и блок питания C850 SFX 5 ч.
Неуловимая чёрная дыра промежуточной массы выдала себя, в клочья разорвав белого карлика 9 ч.
Google представила Pixel 10a — смартфон среднего уровня с дизайном, характеристиками и ценой Pixel 9a 9 ч.
Власти Индии закупят ещё 20 тыс. ускорителей NVIDIA для ускорения развития ИИ в стране 10 ч.
Hisense открыла в Москве фирменный магазин в формате shop-in-shop 10 ч.
В Швеции показали в деле зарядку на 1,2 МВт для электромобилей — и мороз не помешал 10 ч.
Топ-менеджер Intel: в половине отгруженных в этом году ПК будет ускоритель ИИ 11 ч.
ПК-версию Cyberpunk 2077 запустили на Android — RedMagic 11 Pro справился на 30–40 FPS 13 ч.
Китайский конкурент Neuralink сообщил о первых успехах — пациент с имплантом научился управлять курсором за 5 дней 14 ч.
Wavepiston построит на Барбадосе волновую электростанцию на 50 МВт, каких мир ещё не видел 14 ч.