Сегодня 01 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic извинилась за непрозрачность в вопросах безопасности Claude Fable 5

Anthropic принесла извинения, что установила скрытые ограничения на работу своей модели искусственного интеллекта Claude Fable 5, которые мешают деятельности исследователей, как, впрочем, и конкурентов, разрабатывающим собственные системы. Компания пообещала сменить курс и стать более прозрачной в вопросах ограничений, даже если Fable будет отклонять больше запросов.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Claude Fable 5 стала первой ИИ-моделью класса Mythos — Anthropic охарактеризовала их как слишком опасные для выпуска в открытый доступ. Разработчик заявил, что устранил некоторые из этих угроз, запретив модели отвечать на запросы по некоторым темам «высокого риска». Это сделано также для защиты от дистилляции — метода обучения меньших моделей ИИ на ответах крупных. При выявлении попыток дистилляции модель, отметили в Anthropic, ранее намеренно давала ответы более низкого качества. И пользователи же не знали о срабатывании средства защиты или о понижении качества ответов.

Теперь же компания решила изменить свой подход: при обнаружении попыток дистилляции ответы будут перенаправляться на Claude Opus 4.8 — предыдущую флагманскую модель компании, — и пользователь каждый раз будет получать соответствующее уведомление. Аналогичная схема действительна и при ответах на вопросы в областях высокого риска: таких как биология, химия и кибербезопасность. Если соответствующие запросы не блокируются полностью, то они делегируются Opus 4.8.

«Видимые меры можно проверить, поэтому они должны быть надёжными, а на их правильную настройку требуется время. Невидимые можно нацелить более узко, что позволяет нам быстро выпускать продукт с очень небольшим числом ложных срабатываний. По этой причине мы выбрали невидимые меры защиты — и этот компромисс был неправильным. Вы должны иметь представление о мерах защиты, которые мы используем, и о том, почему. Приносим извинения за то, что не смогли найти правильный баланс», — заявили в Anthropic.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ФАС пригрозила Apple штрафом в 4 млрд рублей за дискриминацию российских поисковиков 52 мин.
Вышел Chrome 150 — в нём исправили почти 400 уязвимостей, включая 15 критических 54 мин.
«Это больше похоже на шутку»: Sony разочаровала подписчиков анонсом июльской подборки игр PS Plus 2 ч.
Разработчики Subnautica 2 всё-таки получат от Krafton заслуженные денежные бонусы, а старый новый гендиректор опять покидает студию 3 ч.
Пользователи Claude встретили возвращение Fable 5 волной критики из-за новых ограничений 3 ч.
Samsung закроет свой мессенджер в пользу аналога Google в этом месяце 4 ч.
Издатель Warhammer 40,000: Battlesector спас Warhammer Blood Bowl от неплатёжеспособной Nacon 4 ч.
Австрия призвала Евросоюз привлечь Anthropic на свою территорию после введённых США ограничений на передовые ИИ-модели 4 ч.
«Дело было не в деньгах»: бывший босс PlayStation объяснил, зачем Sony начала выпускать свои эксклюзивы на ПК 5 ч.
Google радикально усложнила разблокировку смартфонов на Android 17 5 ч.