Сегодня 26 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Тесты подтвердили: Claude Mythos превосходит конкурентов в поиске уязвимостей, но имеет другие слабые места

ИИ-модель Mythos компании Anthropic подтвердила репутацию лучшего инструмента поиска программных уязвимостей, но в других задачах её результаты оказались неоднозначными. Компания XBOW, которая разрабатывает ИИ-инструменты для проверки защищённости систем, провела серию независимых тестов Mythos Preview.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

XBOW сообщает, что Mythos Preview представляет собой существенный шаг вперёд по сравнению со всеми существующими моделями, независимо от провайдера. Модель отлично находит проблемы при тестировании на работающей системе с доступом к исходному коду, но хуже справляется с анализом кода в изоляции. Ещё 20 лет назад американский учёный в области информатики Гэри Макгроу (Gary McGraw) отметил, что ошибки в работе программ возникают на стыке багов в коде и изъянов архитектуры: найти архитектурные изъяны, просто изучая код построчно, нельзя — для этого требуется понимание системы на более высоком уровне. XBOW при этом подчёркивает: хотя любая ИИ-модель может обнаружить что-то интересное, «что-то» не равнозначно «всему».

В оценке результатов — умении отличать реальные уязвимости от ложных — Mythos отсеивала ложные срабатывания лучше предшественников, но иногда пропускала реальные уязвимости, когда свидетельства формально не удовлетворяли её критериям. Лучших результатов модель достигает при точно сформулированных запросах. В реверс-инжиниринге (восстановлении логики программы без доступа к исходному коду) и анализе нативного кода Mythos показала значительную силу. XBOW заключила, что модель способна проводить триаж — приоритизацию и отсев — как собственных результатов, так и находок конкурентов, а также разбираться в нестандартных прошивках. Тесты на взаимодействие с визуальным интерфейсом показали, что модель не всегда попадает в точные координаты элементов на экране, но практически эффективна при выборе действий в браузере: верно определяет нужный элемент и кликает в нужное место.

Остаётся вопрос стоимости. XBOW отмечает, что Mythos Preview — не просто очередная модель, а настоящий титан, но титаны велики, а величина означает дороговизну. Anthropic заявила, что Mythos будет в пять раз дороже модели Opus. XBOW проверила, можно ли дать более дешёвой модели больше времени и получить сопоставимую точность, — и ответ оказался утвердительным. При нормализации по стоимости работы Mythos Preview не выглядит расточительной, если требуется высокая точность, но на бенчмарках XBOW не стала лучшей в своём классе. При поиске веб-уязвимостей с фиксированным бюджетом токенов Mythos превосходит Opus 4.6, но уступает GPT5.5.

Главные выводы тестирования: Mythos чрезвычайно мощна для аудита исходного кода, хороша, но менее убедительна в подтверждении работоспособности найденных эксплойтов. Модель склонна к буквальности в оценках и преувеличивает практическую значимость находок, при этом сильна в нативном коде и реверс-инжиниринге. XBOW заключает, что Mythos Preview уверенно находит потенциальные уязвимости, особенно в исходном коде, и показывает сильные результаты в задачах, связанных с вебом, нативным кодом и реверс-инжинирингом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Meccha Chameleon обогнала все хиты 2026 года по скорости продаж — 10 миллионов за две с половиной недели 19 мин.
Google Gemini 3.5 Flash научилась полностью управлять компьютерами 22 мин.
Windows 11 наконец научилась откатывать неудачные обновления 26 мин.
Живой мир, интеграция соцсетей и геймплей за двух героев: бразильские ретейлеры раскрыли новые подробности GTA VI 2 ч.
Сотрудники OpenAI стали переходить от использования чат-ботов к ИИ-агентам 3 ч.
Космический шутер Wildgate от ветеранов Blizzard не проживёт и года — разработчики объяснили, что произошло 3 ч.
Администрация Трампа попросила OpenAI задержать публичный выпуск GPT-5.6 «из соображений безопасности» 3 ч.
Microsoft устранила множество проблем с Bluetooth в Windows 11 и улучшила работу с Apple AirPods 4 ч.
Kingdom Come: Deliverance 2 взяла новую вершину продаж и получила квест с «эксцентричным шутом» из Balatro 4 ч.
Илон Маск расширил доступ к фирменной платёжной системе для премиальных пользователей социальной сети X 5 ч.
Два кристалла, 304 ядра и 32 Гбайт HBM: подробности об Arm-чипах LX2 в китайском суперкомпьютере LineShine 5 мин.
Акции технологических компаний продолжают дешеветь по всему миру из-за опасений по поводу ИИ 7 мин.
Китайские ИИ-чипы в этом году захватят 79 % домашнего рынка — лидирует Huawei 10 мин.
Tesla предложила запитать ЦОД от домашних аккумуляторов и электромобилей — в США насчитали 16 ГВт таких мощностей 11 мин.
Бигтехи арендовали ЦОД на $850 млрд, больше всех отличились Meta и Microsoft 20 мин.
В Китае откроют отель, полностью обслуживаемый роботами и ИИ 21 мин.
Cornelis и NextSilicon создадут эталонные архитектуры для ИИ и HPC 26 мин.
Китайские биологи первыми в мире заставили искусственные эмбрионы вырастить собственные органы 2 ч.
Asus первой восстановила отключённое AMD шифрование памяти Ryzen 9000 2 ч.
Акции азиатских партнёров Apple массово рухнули в цене после скачка цен на Mac и iPad 2 ч.