Сегодня 08 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Чат-бот Claude AI станет прекращать «вредоносные или оскорбительные диалоги с пользователями»

Anthropic научила свой чат-бот Claude AI прекращать общение, которое он сочтёт «вредоносным или оскорбительным». Эта возможность уже доступна в моделях Opus 4 и 4.1. Она позволит чат-боту завершать разговоры в качестве крайней меры после неоднократных попыток пользователя сгенерировать вредоносный или оскорбительный контент. Anthropic хочет добиться «потенциального благополучия» моделей ИИ, прекращая беседы, в которых Claude испытывает «явный дискомфорт».

 Источник изображения: Anthropic

Источник изображения: Anthropic

После прекращения диалога со стороны Claude, пользователь не сможет отправлять новые сообщения в этом чате, но создание новых чатов будет по-прежнему доступно. Anthropic отметила, что разговоры, вызывающие подобную реакцию, являются «крайними случаями», добавляя, что большинство пользователей не столкнутся с этим препятствием даже при обсуждении спорных тем.

В ходе тестирования Claude Opus 4 у чат-бота было отмечено «стойкое и последовательное отвращение к причинению вреда», в том числе к созданию сексуального контента с участием несовершеннолетних, насильственным действиям и терроризму. В этих случаях, по данным Anthropic, Claude демонстрировал «явную тревожность» и «тенденцию прекращать вредоносные разговоры, когда предоставлялась такая возможность».

Claude получил прямое указание не завершать разговоры, если пользователь проявляет признаки желания причинить «неминуемый вред» себе или другим. В таких случаях Anthropic привлекает онлайн-сервис кризисной поддержки Throughline, чтобы помочь разработать ответы на запросы, связанные с самоповреждением и психическим здоровьем.

На прошлой неделе Anthropic обновила политику использования своего чат-бота, поскольку быстро развивающиеся модели ИИ вызывают всё больше опасений по поводу безопасности. Теперь компания запрещает использовать Claude для разработки биологического, ядерного, химического или радиологического оружия, а также для разработки вредоносного кода или эксплуатации уязвимостей сети.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Польские СМИ раскрыли стартовые продажи хоррора Cronos: The New Dawn от разработчиков ремейка Silent Hill 2 15 мин.
Звезда Cyberpunk 2077 Киану Ривз «с удовольствием бы» сыграл Джонни Сильверхенда в Cyberpunk 2 3 ч.
Microsoft предоставила скидки госагентствам США на более чем $6 млрд 4 ч.
«Т-Банк» тоже вернул бесконтактную оплату на iPhone россиян, но пока в тестовом режиме 6 ч.
Уловками мошенники заставили Grok распространять вредоносные ссылки 7 ч.
В следующем году выйдет полнометражный мультфильм Critterz, созданный с помощью OpenAI и её ИИ 8 ч.
Журналисты выяснили, когда выйдет четвёртый сезон «Ведьмака» от Netflix 9 ч.
«Хотим всё сделать правильно»: скандал с платными кланами обернётся «значительными изменениями» для Vampire: The Masquerade — Bloodlines 2 10 ч.
Google уточнила лимиты для бесплатного и платных тарифов Gemini 10 ч.
Трудности перевода: китайские игроки обрушили рейтинг Hollow Knight: Silksong в Steam из-за плохой локализации 13 ч.
Межзвёздная Комета «Оумуамуа» может оказаться фрагментом «экзо-Плутона» — и далеко не единственным 2 ч.
OneXPlayer выпустила портативную консоль X1 Air на базе Intel Lunar Lake и внешнюю видеокарту OneXGPU Lite на Radeon RX 7600M XT 2 ч.
Axelera AI представила ускоритель Metis M.2 Max для ИИ-задач на периферии 2 ч.
SpaceX купит новые частоты для Starlink и Direct to Cell за $17 млрд 3 ч.
Репортаж со стенда Acer на выставке IFA 2025: геймерские компьютеры и мониторы, самый лёгкий 16" ноутбук и другие новинки 4 ч.
d-Matrix начала тестирование чипа Pavehawk с поддержкой 3DIMC 4 ч.
Утечка раскрыла неожиданное расположение внешнего экрана у Galaxy Z TriFold 4 ч.
Hyper-Threading наоборот: Intel разрабатывает технологию программно-определяемых суперъядер 5 ч.
Техпроцесс Intel 14A будет заметно дороже 18A из-за оборудования High-NA EUV 6 ч.
GeForce RTX 5090 стали зависать в рабочих станциях — причина не ясна, а помогает только перезагрузка 7 ч.