Сегодня 28 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все современные ИИ провалили новый сложный тест на общий интеллект — люди с ним тоже справились не идеально

Новый тест для оценки общей интеллектуальной способности моделей искусственного интеллекта, получивший название ARC-AGI-2, поставил в тупик большинство ИИ-моделей. Согласно рейтингу, рассуждающие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1 % до 1,3 %. Модели без логического мышления, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали менее 1 %.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь в области искусственного интеллекта Франсуа Шолле (François Chollet), объявил в своём блоге о создании нового, более продвинутого теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.

Тест ARC-AGI-2 представляет собой серию головоломок, в которых ИИ должен распознать визуальные закономерности, анализируя разноцветные квадраты, и на основе этого построить правильное продолжение узора. Испытание специально разработано так, чтобы модели не могли полагаться на прошлый опыт и вынуждены были адаптироваться к новым задачам.

Также Arc Prize Foundation провела тестирование с участием более 400 человек. В среднем группы испытуемых верно ответили на 60 % заданий. Это значительно превосходит показатели всех протестированных ИИ и одновременно подчёркивает разрыв между текущими возможностями ИИ и интеллектом людей в решении задач, требующих адаптации и понимания новых концепций.

Шолле заявил, что ARC-AGI-2 является более точным показателем реального интеллекта ИИ-моделей, чем предыдущая версия теста ARC-AGI-1. Кроме того, ARC-AGI-2 исключает возможность решения задач «методом грубой силы», то есть путём использования огромной вычислительной мощности для перебора всех возможных вариантов, что происходило в тесте ARC-AGI-1 и было признано серьёзным недостатком.

Для устранения погрешностей первого теста в ARC-AGI-2 была введена метрика эффективности, которая заставляла ИИ интерпретировать паттерны «на лету», а не полагаться на запоминание. Сооснователь Arc Prize Foundation Грег Камрадт (Greg Kamradt) отметил, что «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности».

ARC-AGI-1 оставался ведущей метрикой в течение примерно пяти лет, пока в декабре 2024 года OpenAI не выпустила свою продвинутую модель рассуждений o3. Эта модель превзошла все другие ИИ-модели и даже сравнялась с производительностью человека в тестах ARC-AGI-1. Однако, как было отмечено, эти достижения были достигнуты за счёт значительных вычислительных затрат.

Разработка нового теста совпала с ростом обеспокоенности в индустрии по поводу недостатка объективных критериев для оценки искусственного интеллекта. В связи с этим Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025, в котором разработчикам предлагается достичь 85 % точности на ARC-AGI-2, затратив при этом вычислительных затрат не более, чем $0,42 на задачу.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Meta начала отменять итоги сделки с Manus, стремясь избежать штрафов в Китае 21 мин.
«Превед, медвед!» — и прощай: сайт Udaff.com закрылся спустя четверть века 2 ч.
Более 600 сотрудников Google выступили против использования фирменного ИИ Пентагоном 3 ч.
Конкуренция в сфере ИИ на Android станет предметом контроля ЕС 4 ч.
Microsoft и OpenAI пересмотрели «брачный договор»: эксклюзивных прав больше нет, но и выручкой делиться не надо 8 ч.
Эвакуационный шутер Arc Raiders завтра получит крупный патч Riven Tides с новой картой и множеством активностей 10 ч.
Инсайдер: Ubisoft поставила 50 разработчиков Assassin’s Creed Codename Hexe под угрозу увольнения, чтобы уложиться в бюджет 11 ч.
OpenAI избавилась от зависимости от Microsoft — и теперь сможет использовать облака Google и других провайдеров 12 ч.
Новый трейлер раскрыл дату выхода Battlestar Galactica: Scattered Hopes — беспощадной стратегии по мотивам «Звёздного крейсера "Галактика"» 12 ч.
Следующее дополнение отправит игроков PowerWash Simulator 2 в далёкую-далёкую галактику — анонсирован кроссовер со «Звёздными войнами» 13 ч.
OpenAI не выходит на целевые показатели по выручке и количеству новых пользователей 2 ч.
50 пусков за 4 месяца: ракета Falcon 9 со ступенью-ветераном доставила на орбиту 25 спутников Starlink 2 ч.
Спрос на память останется высоким до конца десятилетия, как ожидают аналитики Melius Research 4 ч.
Новая статья: Больше кадров — больше лага: тестирование латентности с генерацией кадров DLSS и FSR 9 ч.
Складной iPad рискует никогда не выйти из-за повышения Тернуса до гендира Apple 9 ч.
Valve объявила старт продаж Steam Controller — геймпад действительно оценили в $99 11 ч.
Попроще и подешевле: YADRO обновила конфигурации TATLIN.AFA и TATLIN.BACKUP на фоне глобального дефицита компонентов 11 ч.
Vivo выпустила смартфон Y600 Proс батареей на 10 200 мА·ч по цене от $300 12 ч.
Акции Qualcomm взлетели на слухах о разработке ИИ-смартфона OpenAI 13 ч.
Аналоговый фотоаппарат Leica M-A переиздан ограниченной серией с «молотковой» отделкой 13 ч.