Опрос
|
реклама
Быстрый переход
Учёные уличили ИИ в неспособности строить математические доказательства в олимпиадных задачах USAMO 2025 года
26.04.2025 [12:29],
Дмитрий Федоров
Новое исследование ETH Zurich и INSAIT показало, что современные ИИ-модели, имитирующие рассуждение и уверенно решающие стандартные математические задачи, практически не способны формулировать полные доказательства уровня Математической олимпиады США 2025 года (USAMO). Эти результаты ставят под сомнение возможность глубокого математического рассуждения у современных ИИ-моделей. ![]() Источник изображения: Imkara Visual / Unsplash В марте 2025 года исследовательская группа из Швейцарской высшей технической школы Цюриха (ETH Zurich) и Института компьютерных наук, искусственного интеллекта и технологий (INSAIT) при Софийском университете, возглавляемая Иво Петровым (Ivo Petrov) и Мартином Вечевым (Martin Vechev), опубликовала препринт научной статьи под названием «Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad» (рус. — Доказательство или блеф? Оценка больших языковых моделей на Математической олимпиаде США 2025 года). Работа направлена на оценку способности больших языковых моделей (LLMs), имитирующих рассуждение, генерировать полные математические доказательства на олимпиадных задачах. Для анализа были использованы шесть задач с USAMO 2025 года, организованного Математической ассоциацией Америки. ИИ-модели тестировались сразу после публикации заданий для минимизации риска утечки данных в обучающие выборки. Средняя результативность по всем ИИ-моделям при генерации полных доказательств составила менее 5 % от максимально возможных баллов. Системы оценивались по шкале от 0 до 7 баллов за задачу с учётом частичных зачётов, выставляемых экспертами. Лишь одна модель — Gemini 2.5 Pro компании Google — показала заметно лучший результат, набрав 10,1 балла из 42 возможных, что эквивалентно примерно 24 %. Остальные модели существенно отставали: DeepSeek R1 и Grok 3 получили по 2,0 балла, Gemini Flash Thinking — 1,8 балла, Claude 3.7 Sonnet — 1,5 балла, Qwen QwQ и OpenAI o1-pro — по 1,2 балла. ИИ-модель o3-mini-high компании OpenAI набрала всего 0,9 балла. Из почти 200 сгенерированных решений ни одно не было оценено на максимальный балл. Исследование подчёркивает фундаментальное различие между решением задач и построением математических доказательств. Стандартные задачи, такие как вычисление значения выражения или нахождение переменной, требуют лишь конечного правильного ответа. В отличие от них, доказательства требуют последовательной логической аргументации, объясняющей истинность утверждения для всех возможных случаев. Это качественное различие делает задачи уровня USAMO значительно более требовательными к глубине рассуждения. ![]() Скриншот задачи №1 USAMO 2025 года и её решения на сайте AoPSOnline. Источник изображения: AoPSOnline Авторы исследования выявили характерные модели ошибок в работе ИИ. Одной из них стала неспособность поддерживать корректные логические связи на протяжении всей цепочки вывода. На примере задачи №5 USAMO 2025 года ИИ-модели должны были найти все натуральные значения k, при которых определённая сумма биномиальных коэффициентов в степени k остаётся целым числом при любом положительном n. Модель Qwen QwQ допустила грубую ошибку, исключив возможные нецелые значения, разрешённые условиями задачи, что привело к неправильному окончательному выводу, несмотря на правильное определение условий на промежуточных этапах. Характерной особенностью поведения моделей стало то, что даже в случае серьёзных логических ошибок они формулировали свои решения в утвердительной форме, без каких-либо признаков сомнения или указаний на возможные противоречия. Это свойство имитации рассуждения указывает на отсутствие у ИИ-моделей механизмов внутренней самопроверки и коррекции вывода. Авторы отметили также влияние особенностей обучения на качество решений. Тестируемые ИИ-модели демонстрировали артефакты оптимизационных стратегий, применяемых при подготовке к стандартным бенчмаркам: например, принудительное форматирование ответов с использованием команды \boxed{}, предназначенное для удобства автоматизированной проверки. Эти шаблонные подходы приводили к ошибкам в контексте задач, где требовалось развёрнутое доказательство, а не только числовой ответ. ![]() Показатели точности ИИ-моделей на каждой задаче USAMO 2025 года. Источник изображения: MathArena Несмотря на выявленные ограничения, внедрение методов цепочки размышлений и имитации рассуждения положительно сказались на формировании промежуточных логических шагов в процессе вывода ИИ-моделей. Механизм масштабирования вычислений на этапе вывода позволяет ИИ строить более связные локальные рассуждения. Однако фундаментальная проблема остаётся: современные большие языковые модели (LLM) на архитектуре «Трансформер» (Transformer) продолжают работать как системы распознавания паттернов, а не как самостоятельные системы концептуального рассуждения. Более высокие результаты модели Gemini 2.5 Pro свидетельствуют о потенциальной возможности сокращения разрыва между симулированным и реальным рассуждением в будущем. Однако для достижения качественного прогресса необходимо обучение ИИ-моделей более глубоким многомерным связям в латентном пространстве и освоение принципов построения новых логических структур, а не только копирование существующих шаблонов из обучающих выборок. Белый дом может сократить бюджет NASA на $5 млрд, в том числе на научные программы
12.04.2025 [05:30],
Анжелла Марина
Администрация Дональда Трампа (Donald Trump) представила проект бюджета на 2026 финансовый год, в котором предусмотрено радикальное сокращение финансирования научных программ NASA. По предварительным данным, расходы агентства могут быть урезаны на 20 %, а научное направление потеряет половину средств, передаёт Ars Technica. ![]() Источник изображения: NASA Согласно проекту бюджета, представленному NASA на этой неделе, общее финансирование агентства должно сократиться с $25 до $20 миллиардов. Однако наибольшие потери понесёт научный директорат NASA, который курирует исследования в области астрофизики, науки о Земле, планетологии и других направлений. Здесь объём финансирования может упасть с $7,5 млрд до $3,9 млрд. Подразделение астрофизики может лишиться двух третей своего бюджета, получив лишь $487 млн. Серьёзные сокращения грозят гелиофизике — финансирование снизится более чем на две трети, вплоть до $455 млн. Наука о Земле потеряет 50 % средств — до $1,033 млрд, а планетология — 30 %, до $1,929 млрд. Также, несмотря на обещание продолжить поддержку таких миссий, как телескопы «Хаббл» и «Джеймс Уэбб», проект бюджета исключает финансирование нового космического телескопа Nancy Grace Roman, хотя этот аппарат уже собран и готов к запуску через два года. Теперь его судьба под вопросом. В документе прямо указано: «поддержка космических телескопов Hubble и James Webb продолжится, но другие телескопы финансироваться не будут». ![]() Источник изображения: GSFC/SVS Также предлагается прекратить финансирование программы Mars Sample Return и миссии DAVINCI к Венере. Кроме того, особую тревогу вызывает возможное закрытие Центра космических полётов Годдарда (Goddard Space Flight Center, GSFC) в Мэриленде, где работают около 10 тысяч человек. Однако эти меры, по мнению аналитиков, могут нанести непоправимый ущерб научной репутации агентства. Один из экспертов даже охарактеризовал ситуацию как «событие уровня вымирания» для научных программ NASA. Предложенный бюджет должен ещё пройти согласование с Конгрессом. затем NASA может подать апелляцию с предложениями по корректировке, на что у неё будет 72 часа. Затем документ перерабатывается в официальный бюджетный запрос президента. Ожидается, что этот процесс займёт от четырёх до шести недель. Некоторые члены Конгресса уже выразили жёсткое несогласие с предложениями. «Это масштабное сокращение научных программ NASA не останется без ответа, — заявил конгрессмен Джордж Уайтсайдс (George Whitesides), демократ из Калифорнии. — Нас предупреждали о возможном 50-процентном сокращении. Теперь мы знаем, что это правда. Я буду бороться за сохранение лидерства США в космосе». Пока судьба бюджета остаётся неопределённой, есть риск, что при задержках в утверждении администрация Белого дома сможет применить так называемое «замораживание средств», фактически введя предлагаемый бюджет в действие с 1 октября, вне зависимости от позиции Конгресса. «Т-банк» вложит 500 млн рублей в исследования в сферах ИИ, аналитики и безопасности данных
14.03.2025 [14:12],
Владимир Мироненко
Финансовая экосистема «Т-технологии» (включает «Т-банк» и «Росбанк») вложит 500 млн руб. в исследования собственного центра исследований и разработок (R&D-центр) в области ИИ, баз данных и аналитических систем, информационной безопасности и фундаментальных алгоритмов, сообщили «Ведомости» со ссылкой на представителя компании. ![]() Источник изображения: Joan Gamell/unsplash.com Представитель назвал ключевым проектом центра, созданного в начале года, разработку ИИ-ассистента для программирования (AI Coding Assistant). Как ожидается, это позволит увеличить к 2026 году долю созданного ИИ-кода специалистами экосистемы в 6 раз до 25 % от общего количества генерируемых строк кода. Указанная сумма будет направлена на наем инженеров в создаваемую с нуля команду, закупку оборудования и софинансирование грантов на исследования совместно с университетами. По словам представителя «Т-технологий», у R&D-центра уже есть договоры о сотрудничестве с МФТИ, «Сколтехом» и Новосибирским государственным университетом через НИР или НИОКР и через консультационную помощь. R&D-центр «Т-технологий» в настоящее время курирует с МФТИ исследовательскую лабораторию, которая занимается исследованиями в области рекомендательных систем, обучения с подкреплением, компьютерного зрения и больших языковых моделей (LLM). В дальнейшем «Т-технология» планирует расширить сотрудничество с российскими вузами в разных регионах страны и создать на их базе студенческие исследовательские лаборатории. Сообщается, что R&D-центр будет заниматься как фундаментальными, так и прикладными исследованиями. По мнению директора R&D-центра Станислава Моисеева, совместная работа с академическим сообществом позволит не только принести ценность компании, но и привлечь будущих специалистов из числа талантливых студентов. У многих крупных корпораций есть собственные R&D-отделы, которые, в том числе разрабатывают прорывные решения, способные кардинально изменить рынок и дать компании преимущество, говорит исполнительный директор АНО «Колаборатория» Мария Базлуцкая. Например, у OpenAI есть исследовательское подразделение Research, а Microsoft израсходовала на R&D в 2024 году, по данным Statista, рекордную сумму в $29,5 млрд. Базлуцкая отметила, что 500 млн руб. — довольно скромная сумма в мировых масштабах. Такого же мнения придерживается гендиректор Dbrain Алексей Хахунов. Он отметил стремление «Т-банка» диверсифицировать банковский бизнес, чтобы стать технологическим игроком, но 500 млн руб. — слишком мало для реализации этой задачи. Как сообщили в «Яндексе», у компании есть несколько совместных с университетами лабораторий, которые занимаются фундаментальными исследованиями в сфере компьютерных наук и ИИ: например, с НИУ ВШЭ и с МФТИ. Такие лаборатории занимаются разработкой технологий и помогают реализовывать социально значимые проекты для здравоохранения, экологии, науки и образования. В прошлом году более 10 тыс. студентов вузов прошли обучение на технологиях компании и приняли участие в реализации проектов, рассказал представитель «Яндекса». Написанный ИИ научно-фантастический рассказ впервые в истории победил на литературном конкурсе в Китае
20.12.2023 [23:25],
Николай Фрей
Когда профессор пекинского Университета Цинхуа Шен Ян (Shen Yang) решил написать научно-фантастическую новеллу о метавселенной и человекоподобных роботах, он обратился за вдохновением к искусственному интеллекту (ИИ). В итоге ИИ создал всю его книгу, которая затем была удостоена национальной премии в области научной фантастики. Но ИИ представляет угрозу для писателей и наносит непоправимый ущерб литературному языку, утверждает издатель произведения. ![]() Иллюстрации к новелле также были созданы искусственным интеллектом. Источник изображения: Weibo/Capital Television Новелла «Страна воспоминаний» на китайском языке объёмом почти 6000 знаков, написанная Шэнь Яном, профессором университетской школы журналистики и коммуникаций, стала одним из победителей молодёжного конкурса научно-популярной фантастики в Цзянсу, сообщает газета Jinan Times из провинции Шаньдун. Шэнь создал научно-фантастический рассказ на основе черновика в 43 000 знаков всего за три часа с помощью 66 подсказок. Уникальная сюжетная линия закладывает основу с первых трёх строк, сгенерированных искусственным интеллектом. На краю метавселенной находится «Страна воспоминаний» — запретное царство, куда людям вход воспрещен. Здесь обитают сплошные иллюзии, созданные гуманоидными роботами и ИИ, потерявшими память. Любой нарушитель, будь то человек или искусственное существо, лишится памяти и навсегда останется в её запретных объятиях. В центре сюжета — исследовательница метавселенной по имени Ли Сяо (Li Xiao), которая в реальном мире работала нейроинженером. Случайно потеряв все воспоминания о своей семье во время эксперимента, она заинтересовывается легендой о Стране Воспоминаний и надеется, что в метавселенной ей удастся восстановить утраченные воспоминания… Новелла была представлена на конкурс, проводимый Ассоциацией писателей-фантастов Цзянсу. На октябрьской церемонии награждения рассказ получил второй приз наряду с 17-ю другими рассказами, что означает, что он получил голоса трёх из шести членов жюри. Согласно отчёту конкурса, только один из судей был уведомлен о том, что Шэнь использовал ИИ в своей работе. Но другой судья, который изучал вопрос создания контента с использованием ИИ, понял, что работа Шена была сгенерирована ИИ. Судья сказал, что не стал голосовать за работу, потому что она не соответствовала стандартам и ей «не хватало ярких эмоций». «После того как мы подготовили десятки подсказок, ИИ сгенерировал весь контент — начиная от имени автора, названия и текста и заканчивая иллюстрациями к тексту. Его попросили написать в литературном стиле Кафки, — комментирует Шен, ссылаясь на характерный стиль богемного писателя Франца Кафки, который предполагает изображение ужасающих ситуаций в объективном тоне. — Впервые в истории литературы и искусственного интеллекта написанный ИИ рассказ получил литературную награду». Процесс создания этой истории будет подробно описан и обнародован «для всех, кто хотел бы узнать, как создать хорошую художественную литературу с помощью ИИ». Согласно докладу Фу Ручу (Fu Ruchu), директора редакционного отдела китайского издательства «Народная литература», было нелегко распознать, что произведение Шена было создано искусственным интеллектом. «Писатели в жанре научной фантастики часто уделяют больше внимания творчеству и описанию сцен, чем языку, — замечает Фу. — Я думаю, что этот рассказ хорошо написан и логически последователен». Вместе с тем, Фу заявила, что ИИ может представлять угрозу для авторов остросюжетных романов и научной фантастики, и предупредила о том, что, по её мнению, ИИ может нанести непоправимый ущерб литературному языку. «Чувство и ритм языка в этом рассказе очень слабые. Я думаю, что в будущем с ростом влияния ИИ на литературу яркие эмоции языка могут стать ещё более редким явлением», — заключила она. |