Сегодня 11 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic извинилась за непрозрачность в вопросах безопасности Claude Fable 5

Anthropic принесла извинения, что установила скрытые ограничения на работу своей модели искусственного интеллекта Claude Fable 5, которые мешают деятельности исследователей, как, впрочем, и конкурентов, разрабатывающим собственные системы. Компания пообещала сменить курс и стать более прозрачной в вопросах ограничений, даже если Fable будет отклонять больше запросов.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Claude Fable 5 стала первой ИИ-моделью класса Mythos — Anthropic охарактеризовала их как слишком опасные для выпуска в открытый доступ. Разработчик заявил, что устранил некоторые из этих угроз, запретив модели отвечать на запросы по некоторым темам «высокого риска». Это сделано также для защиты от дистилляции — метода обучения меньших моделей ИИ на ответах крупных. При выявлении попыток дистилляции модель, отметили в Anthropic, ранее намеренно давала ответы более низкого качества. И пользователи же не знали о срабатывании средства защиты или о понижении качества ответов.

Теперь же компания решила изменить свой подход: при обнаружении попыток дистилляции ответы будут перенаправляться на Claude Opus 4.8 — предыдущую флагманскую модель компании, — и пользователь каждый раз будет получать соответствующее уведомление. Аналогичная схема действительна и при ответах на вопросы в областях высокого риска: таких как биология, химия и кибербезопасность. Если соответствующие запросы не блокируются полностью, то они делегируются Opus 4.8.

«Видимые меры можно проверить, поэтому они должны быть надёжными, а на их правильную настройку требуется время. Невидимые можно нацелить более узко, что позволяет нам быстро выпускать продукт с очень небольшим числом ложных срабатываний. По этой причине мы выбрали невидимые меры защиты — и этот компромисс был неправильным. Вы должны иметь представление о мерах защиты, которые мы используем, и о том, почему. Приносим извинения за то, что не смогли найти правильный баланс», — заявили в Anthropic.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Deezer выпустил детектор ИИ-музыки для других стримингов 12 мин.
Амбициозный авиасимулятор «Корея. Серия Ил-2» опоздает на вылет — новый трейлер и дата полноценного релиза 15 мин.
Anthropic извинилась за непрозрачность в вопросах безопасности Claude Fable 5 50 мин.
ИИ-агент OpenClaw провалил тесты на фишинговые атаки 2 ч.
Google представила очень быструю открытую ИИ-модель DiffusionGemma, которая принципиально отличается от других 2 ч.
ChatGPT может подешеветь — OpenAI собирается усилить борьбу с Anthropic 2 ч.
Meta по требованию китайских властей отделила недавно купленный стартап Manus 4 ч.
«Именно тот сиквел, о котором мечтали фанаты»: журналисты показали первый геймплей Alien: Isolation 2 и поделились впечатлениями от игры 5 ч.
Уволенный из xAI из-за претензий к безопасности ИИ инженер подал на стартап Маска в суд 5 ч.
OpenAI может выпустить GPT-5.6 уже в этом месяце — и она будет «значительно лучше» GPT-5.5 6 ч.
Инстансы Amazon EC2 M9g и M9gd на базе Graviton5 уже доступны в ряде регионов 6 мин.
Развитие ЦОД может столкнуться с «энергетической стеной» к 2030 году 14 мин.
Meta и Reliance Industries расширят партнёрство, построив ИИ-совместимый ЦОД в Индии 18 мин.
Смартфон Трампа и HTC U24 Pro оказались почти идентичны, подтвердила разборка iFixit 26 мин.
Потребление воды ИИ вырастет до 2,27 млрд кубометров к 2030 году — в основном из-за роста энергопотребления 53 мин.
«Мегафон» запустил магистральную линию на базе компактных 400G‑трансиверов российского производства 2 ч.
Vertiv представила серверную стойку Rack Extreme, которая выдержит более 2000 кг оборудования 4 ч.
Xiaomi получила разрешение на выпуск «электромобилей с расширителем запаса хода» в виде ДВС 4 ч.
Телевизор TCL 75C7L: большой экран, SQD-Mini LED, высокая яркость и ничего лишнего 5 ч.
Олдскульная плата Asus ROG Crosshair 2006 для Ryzen 9000 появилась в продаже за €829 5 ч.