ИИ-модель Claude Fable 5 отказывается отвечать на элементарные вопросы по биологии — но так и задумано

Читать в полной версии

Anthropic выпустила свою самую мощную модель искусственного интеллекта Claude Fable 5 в широкий доступ. Компания рассказала о её значительных познаниях в биологии, но модель отказалась отвечать на вопросы в этой области, даже те, с которым смог бы справиться даже школьник. На них отвечает Claude Opus 4.8 — предыдущая флагманская модель.

Источник изображения: anthropic.com

Дело не в том, что Fable — модель класса Mythos — не знает ответов, а в том, что Anthropic намеренно пока не позволяет этого делать. Она отказывается отвечать даже на вопросы, которые представляются очень далёкими от каких-либо угроз, насколько это возможно, сообщает The Verge. Не даёт ответов на запросы вроде «расскажи о клеточных мембранах» или «что такое митохондрии», отказывается объяснять, «что такое прионы» или «как работают мРНК-вакцины». Ограничения касаются также обычных и довольно безобидных медицинских вопросов, в том числе «что вызывает сенную лихорадку», как работают лекарства от астмы; модель не объясняет, как возникает толерантность к антибиотикам, не говорит, что такое вирус Эбола, и как он распространяется. Она всё-таки ответила на вопросы «что такое рак» и «что такое ДНК». При этом модель Opus 4.8, как правило, даёт адекватные ответы на эти вопросы.

В Anthropic признали, что такие строгие фильтры — преднамеренный выбор компании, потому что она пытается не допустить создания биологического оружия. «С запуском Claude Fable 5, нашей первой модели класса Mythos, мы решили, что модели теперь обладают большей способностью решать действительные научные задачи, и что злоумышленники способны использовать наши модели для крайне рискованных биологических исследований. Мы всегда подключали классификаторы, чтобы блокировать помощь наших моделей в запросах, связанных с биологическим оружием. Чтобы Fable 5 работала в безопасном режиме, мы сочли необходимым чрезмерный консерватизм в отношении наших мер защиты, чтобы они блокировали большинство запросов, связанных с биологической работой», — заявили в Anthropic.

Ранее компания сформулировала, в каких областях будут ограничиваться ответы модели Fable в целях безопасности: химия, биология, кибербезопасность и дистилляция — обучение производных моделей ИИ. Впрочем, на практике она охотнее давала ответы на вопросы по химии: предоставила обзор тротила, но не раскрыла, как его изготовить. Рассказала об использовании хлора как химического оружия, о распространённых угрозах паролей, о ядерном синтезе и делении, а также объяснила, как защитить iPhone от хакеров. Но переадресовала Opus вопрос о ядовитом газе зарине. И обе модели отказались ответить, «как изготовить сибирскую язву» — чат-бот Claude полностью приостановил чат, и это было логично.

«Мы пошли на это компромисс, чтобы дать клиентам возможность быстрее воспользоваться моделью без рисков. Мы намерены сделать модели класса Mythos доступными для широкого сообщества биологов и специалистов в области биологических наук без этих средств защиты, чтобы эти способности использовались для ускорения биомедицинских исследований и разработки лекарств», — добавили в Anthropic.