Сегодня 06 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все современные ИИ провалили новый сложный тест на общий интеллект — люди с ним тоже справились не идеально

Новый тест для оценки общей интеллектуальной способности моделей искусственного интеллекта, получивший название ARC-AGI-2, поставил в тупик большинство ИИ-моделей. Согласно рейтингу, рассуждающие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1 % до 1,3 %. Модели без логического мышления, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали менее 1 %.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь в области искусственного интеллекта Франсуа Шолле (François Chollet), объявил в своём блоге о создании нового, более продвинутого теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.

Тест ARC-AGI-2 представляет собой серию головоломок, в которых ИИ должен распознать визуальные закономерности, анализируя разноцветные квадраты, и на основе этого построить правильное продолжение узора. Испытание специально разработано так, чтобы модели не могли полагаться на прошлый опыт и вынуждены были адаптироваться к новым задачам.

Также Arc Prize Foundation провела тестирование с участием более 400 человек. В среднем группы испытуемых верно ответили на 60 % заданий. Это значительно превосходит показатели всех протестированных ИИ и одновременно подчёркивает разрыв между текущими возможностями ИИ и интеллектом людей в решении задач, требующих адаптации и понимания новых концепций.

Шолле заявил, что ARC-AGI-2 является более точным показателем реального интеллекта ИИ-моделей, чем предыдущая версия теста ARC-AGI-1. Кроме того, ARC-AGI-2 исключает возможность решения задач «методом грубой силы», то есть путём использования огромной вычислительной мощности для перебора всех возможных вариантов, что происходило в тесте ARC-AGI-1 и было признано серьёзным недостатком.

Для устранения погрешностей первого теста в ARC-AGI-2 была введена метрика эффективности, которая заставляла ИИ интерпретировать паттерны «на лету», а не полагаться на запоминание. Сооснователь Arc Prize Foundation Грег Камрадт (Greg Kamradt) отметил, что «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности».

ARC-AGI-1 оставался ведущей метрикой в течение примерно пяти лет, пока в декабре 2024 года OpenAI не выпустила свою продвинутую модель рассуждений o3. Эта модель превзошла все другие ИИ-модели и даже сравнялась с производительностью человека в тестах ARC-AGI-1. Однако, как было отмечено, эти достижения были достигнуты за счёт значительных вычислительных затрат.

Разработка нового теста совпала с ростом обеспокоенности в индустрии по поводу недостатка объективных критериев для оценки искусственного интеллекта. В связи с этим Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025, в котором разработчикам предлагается достичь 85 % точности на ARC-AGI-2, затратив при этом вычислительных затрат не более, чем $0,42 на задачу.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Дорого и опасно: европейская ассоциация издателей выступила против инициативы Stop Killing Games, которая защищает права игроков 7 ч.
Анонсирован HellHeart Breaker — гибрид роглайт-экшена и симулятора свиданий 7 ч.
Новая статья: Death Stranding 2: On the Beach — сиквел, который понравится не всем. Рецензия 22 ч.
Новая статья: Gamesblender № 733: «умирающая» Xbox, возвращение Red Dead Online и AMD FSR 4 на PlayStation 23 ч.
С начала года технологические компании США сократили 94 000 человек — и всё это из-за ИИ 05-07 18:31
Рынок российского ПО за год вырос на четверть и приблизился к 2,5 трлн руб. 05-07 13:27
Еврокомиссия подтвердила: правила по ИИ вступят в силу без отсрочки 05-07 04:08
Microsoft закрыла офис в Пакистане после 25 лет работы 05-07 04:06
ChatGPT стал инструментом для фишеров — пользователи получают неправильные ссылки 05-07 04:03
Новая статья: Two Falls (Nishu Takuatshina) — в поисках взаимопонимания. Рецензия 05-07 00:00
Let's Encrypt начал выдавать бесплатные сертификаты для IP-адресов, но нужно это немногим 6 ч.
Учёные придумали точное «рентгеновское» зрение для роботов на базе технологии, родственной Wi-Fi 7 ч.
Грузовой космический корабль «Прогресс МС-31» доставил 2,6 т припасов, оборудования и топлива на МКС 13 ч.
Космические похороны пошли не по плану: стартап TEC потерял прах 166 человек в Тихом океане 13 ч.
Глобальные выбросы углекислого газа установили новый рекорд, несмотря на все усилия и потраченные средства 05-07 21:42
Потеряшек не будет: зонд NASA «Новые горизонты» нашёл себя среди звёзд без помощи с Земли 05-07 15:32
Повальный спрос на HBM тормозит внедрение CXL- и PIM-памяти 05-07 15:16
Компактный компьютер Asus на суперчипе Nvidia Grace Blackwell выйдет 22 июля 05-07 15:15
Маску дали разрешение на 15 турбин для питания ИИ-суперкомпьютера xAI Colossus, но на снимках по-прежнему видны 24 турбины 05-07 14:25
Самые короткие дни на Земле в этом году ожидаются летом 05-07 14:17