Сегодня 25 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Учёные уличили ИИ в неспособности строить математические доказательства в олимпиадных задачах USAMO 2025 года

Новое исследование ETH Zurich и INSAIT показало, что современные ИИ-модели, имитирующие рассуждение и уверенно решающие стандартные математические задачи, практически не способны формулировать полные доказательства уровня Математической олимпиады США 2025 года (USAMO). Эти результаты ставят под сомнение возможность глубокого математического рассуждения у современных ИИ-моделей.

 Источник изображения: Imkara Visual / Unsplash

Источник изображения: Imkara Visual / Unsplash

В марте 2025 года исследовательская группа из Швейцарской высшей технической школы Цюриха (ETH Zurich) и Института компьютерных наук, искусственного интеллекта и технологий (INSAIT) при Софийском университете, возглавляемая Иво Петровым (Ivo Petrov) и Мартином Вечевым (Martin Vechev), опубликовала препринт научной статьи под названием «Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad» (рус. — Доказательство или блеф? Оценка больших языковых моделей на Математической олимпиаде США 2025 года). Работа направлена на оценку способности больших языковых моделей (LLMs), имитирующих рассуждение, генерировать полные математические доказательства на олимпиадных задачах.

Для анализа были использованы шесть задач с USAMO 2025 года, организованного Математической ассоциацией Америки. ИИ-модели тестировались сразу после публикации заданий для минимизации риска утечки данных в обучающие выборки. Средняя результативность по всем ИИ-моделям при генерации полных доказательств составила менее 5 % от максимально возможных баллов. Системы оценивались по шкале от 0 до 7 баллов за задачу с учётом частичных зачётов, выставляемых экспертами. Лишь одна модель — Gemini 2.5 Pro компании Google — показала заметно лучший результат, набрав 10,1 балла из 42 возможных, что эквивалентно примерно 24 %. Остальные модели существенно отставали: DeepSeek R1 и Grok 3 получили по 2,0 балла, Gemini Flash Thinking — 1,8 балла, Claude 3.7 Sonnet — 1,5 балла, Qwen QwQ и OpenAI o1-pro — по 1,2 балла. ИИ-модель o3-mini-high компании OpenAI набрала всего 0,9 балла. Из почти 200 сгенерированных решений ни одно не было оценено на максимальный балл.

Исследование подчёркивает фундаментальное различие между решением задач и построением математических доказательств. Стандартные задачи, такие как вычисление значения выражения или нахождение переменной, требуют лишь конечного правильного ответа. В отличие от них, доказательства требуют последовательной логической аргументации, объясняющей истинность утверждения для всех возможных случаев. Это качественное различие делает задачи уровня USAMO значительно более требовательными к глубине рассуждения.

 Скриншот задачи №1 USAMO 2025 года и её решения на сайте AoPSOnline. Источник изображения: AoPSOnline

Скриншот задачи №1 USAMO 2025 года и её решения на сайте AoPSOnline. Источник изображения: AoPSOnline

Авторы исследования выявили характерные модели ошибок в работе ИИ. Одной из них стала неспособность поддерживать корректные логические связи на протяжении всей цепочки вывода. На примере задачи №5 USAMO 2025 года ИИ-модели должны были найти все натуральные значения k, при которых определённая сумма биномиальных коэффициентов в степени k остаётся целым числом при любом положительном n. Модель Qwen QwQ допустила грубую ошибку, исключив возможные нецелые значения, разрешённые условиями задачи, что привело к неправильному окончательному выводу, несмотря на правильное определение условий на промежуточных этапах.

Характерной особенностью поведения моделей стало то, что даже в случае серьёзных логических ошибок они формулировали свои решения в утвердительной форме, без каких-либо признаков сомнения или указаний на возможные противоречия. Это свойство имитации рассуждения указывает на отсутствие у ИИ-моделей механизмов внутренней самопроверки и коррекции вывода.

Авторы отметили также влияние особенностей обучения на качество решений. Тестируемые ИИ-модели демонстрировали артефакты оптимизационных стратегий, применяемых при подготовке к стандартным бенчмаркам: например, принудительное форматирование ответов с использованием команды \boxed{}, предназначенное для удобства автоматизированной проверки. Эти шаблонные подходы приводили к ошибкам в контексте задач, где требовалось развёрнутое доказательство, а не только числовой ответ.

 Показатели точности ИИ-моделей на каждой задаче USAMO 2025 года. Источник изображения: MathArena

Показатели точности ИИ-моделей на каждой задаче USAMO 2025 года. Источник изображения: MathArena

Несмотря на выявленные ограничения, внедрение методов цепочки размышлений и имитации рассуждения положительно сказались на формировании промежуточных логических шагов в процессе вывода ИИ-моделей. Механизм масштабирования вычислений на этапе вывода позволяет ИИ строить более связные локальные рассуждения. Однако фундаментальная проблема остаётся: современные большие языковые модели (LLM) на архитектуре «Трансформер» (Transformer) продолжают работать как системы распознавания паттернов, а не как самостоятельные системы концептуального рассуждения.

Более высокие результаты модели Gemini 2.5 Pro свидетельствуют о потенциальной возможности сокращения разрыва между симулированным и реальным рассуждением в будущем. Однако для достижения качественного прогресса необходимо обучение ИИ-моделей более глубоким многомерным связям в латентном пространстве и освоение принципов построения новых логических структур, а не только копирование существующих шаблонов из обучающих выборок.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
AMD выпустила систему разгона памяти EXPO 1.2 — потенциал она раскроет на Zen 6 3 ч.
WhatsApp для Android получит поддержку «пузырей» — малоизвестного формата системных уведомлений 3 ч.
Microsoft позволит бесконечно откладывать обновления Windows 11 в течение 35-дневного периода 7 ч.
Google инвестирует в Anthropic $40 млрд и предоставит 5 ГВт вычислительных мощностей на фоне обострившейся ИИ-гонки 12 ч.
Новая статья: Mouse: P.I. For Hire — чёрно-белый Doom с мышами. Рецензия 19 ч.
ОАЭ намерены перевести половину госсектора под управление агентного ИИ за два года 20 ч.
«Открыла новую главу для корейских игр»: Crimson Desert заслужила уважение премьер-министра Южной Кореи 21 ч.
Режиссёр Resident Evil Requiem засветил продажи игры на фотографии с корпоратива Capcom 23 ч.
Вопреки опасениям фанатов, в Assassin’s Creed Black Flag Resynced всё-таки будет кровь и «даже не в виде платного DLC» 24 ч.
«Готическая версия Returnal»: трейлер хоррор-шутера Luna Abyss с датой релиза вызвал у игроков конкретные ассоциации 24-04 18:47
Мышь с 2,25" сенсорным экраном: Turtle Beach представила Command Series MC7 за $160 37 мин.
Энтузиаст взломал VBIOS на древней видеокарте S3, чтобы сделать чёрный цвет по-настоящему чёрным 38 мин.
Астрономы впервые наблюдали необъяснимый взрыв сверхновой — для него пришлось выдумывать новую теорию 39 мин.
$50 за защиту RTX 5090 от выгорания: Asus раскрыла цену специального кабеля ROG Equalizer 2 ч.
Маск перестал считать OpenAI и Сэма Альтмана мошенниками, но судиться не передумал 3 ч.
Сотрудников Nvidia и лично Хуанга восхитила работа OpenAI Codex на основе GPT-5.5 3 ч.
Геймерский смартфон OnePlus Ace 6 Ultra с чипом MediaTek Dimensity 9500 и батареей на 8600 мА·ч представят 28 апреля 3 ч.
Японский кубсат-оригами OrigamiSat-2 успешно расправился на орбите и вырос в 25 раз 4 ч.
Axiomtek PICO570 — x86-одноплатник на базе Intel Meteor Lake для периферийных ИИ-задач 5 ч.
Новая версия набора команд SCSI улучшает масштабируемость и отказоустойчивость СХД 5 ч.