Anthropic подтвердила, что готовит мощнейшую ИИ-модель Claude Mythos — утечка раскрыла детали

Anthropic подтвердила, что разрабатывает и тестирует с клиентами раннего доступа новую ИИ-модель, превосходящую по возможностям все предыдущие, после того как о её существовании стало известно из-за случайной утечки данных. Попавшие в открытый доступ черновики содержали сведения о ИИ-модели Claude Mythos, новом уровне Capybara и беспрецедентных, по оценке самой компании, рисках для кибербезопасности.

Источник изображения: anthropic.com

Публичное подтверждение последовало после утечки черновых материалов, обнаруженных в общедоступном кэше данных и изученных изданием Fortune. До вечера четверга в незащищённом и доступном для поиска хранилище находился черновик записи в блоге, где новая ИИ-модель называлась Claude Mythos и описывалась как ИИ, создающий беспрецедентные риски в сфере кибербезопасности. После уведомления от Fortune компания закрыла публичный поиск по хранилищу и доступ к документам. Anthropic заявила, что доступность чернового контента стала следствием «человеческой ошибки» при настройке системы управления контентом.

Масштаб утечки оценивается почти в 3 000 материалов, связанных с блогом Anthropic, ранее не публиковавшихся на новостных или исследовательских площадках компании, а также документы, выглядевшие как внутренние. Такую оценку дал исследователь кибербезопасности из Кембриджского университета (University of Cambridge) Александр Повелс (Alexandre Pauwels), которого Fortune попросило проанализировать массив данных. Независимо от него документы также обнаружил и изучил старший исследователь безопасности ИИ из компании LayerX Security Рой Паз (Roy Paz).

В кэше находился также PDF-файл о предстоящем закрытом выездном мероприятии для генеральных директоров европейских компаний в Великобритании с участием генерального директора Anthropic Дарио Амодеи (Dario Amodei). Мероприятие было рассчитано на 2 дня, описывалось как «камерная встреча» и предполагало обсуждение внедрения ИИ в бизнесе, а также демонстрацию новых возможностей Claude.

Источник изображения: Ayush Kumar / unsplash.com

В тех же материалах фигурировало название Capybara. Оно использовалось для обозначения нового уровня ИИ-моделей — более крупных и более интеллектуальных, чем Opus, до этого считавшиеся наиболее мощными в линейке компании. По содержанию документов Capybara и Mythos относятся к одной и той же базовой ИИ-модели. Сейчас Anthropic продаёт модели трёх уровней: Opus, Sonnet и Haiku. Capybara описывалась как ИИ, превосходящий Opus по возможностям и стоимости.

В черновике также говорилось, что по сравнению с Claude Opus 4.6 новая ИИ-модель показывает значительно более высокие результаты в тестах по программированию, академическому рассуждению и кибербезопасности. Там же сообщалось о завершении обучения Claude Mythos, названной самой мощной ИИ-моделью в истории компании. Структура документа с заголовками и датой публикации указывала на подготовку продуктового запуска. Схема вывода на рынок предполагала ограниченный ранний доступ, поскольку ИИ-модель дорога в эксплуатации и пока не готова к выходу в массы.

Ключевой темой утекших материалов стали риски для кибербезопасности. Модель описывалась как система, значительно опережающая другие ИИ-модели по кибервозможностям и предвосхищающая волну решений, способных использовать уязвимости быстрее, чем кибербезопасность успеет им противодействовать. Поэтому ранний доступ планировалось предоставить организациям, занимающимся киберзащитой, чтобы дать им фору в повышении устойчивости кодовых баз к атакам, управляемым ИИ.

Источник изображения: Wesley Tingey / unsplash.com

Этот подход совпал с более широким отраслевым сдвигом. В феврале OpenAI при выпуске GPT-5.3-Codex заявила, что это её первая ИИ-модель, классифицированная в рамках Preparedness Framework как система с высоким уровнем возможностей для задач, связанных с кибербезопасностью, и первая модель, напрямую обученная выявлению уязвимостей в программном обеспечении (ПО). Тогда же Anthropic выпустила Opus 4.6, способную выявлять ранее неизвестные уязвимости в кодовых базах. Компания признала двойной характер такой возможности: она может помогать и специалистам по защите, и злоумышленникам.

Anthropic также сообщила, что хакерские группы, включая структуры, якобы связанные с правительством Китая, пытались использовать Claude в реальных кибератаках. В одном таком случае поддерживаемая государством китайская группа применяла Claude Code для проникновения примерно в 30 организаций, включая технологические компании, финансовые учреждения и государственные ведомства. В течение последующих 10 дней компания установила масштаб операции, заблокировала причастные к взломам аккаунты и уведомила пострадавшие организации.