Сегодня 07 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все современные ИИ провалили новый сложный тест на общий интеллект — люди с ним тоже справились не идеально

Новый тест для оценки общей интеллектуальной способности моделей искусственного интеллекта, получивший название ARC-AGI-2, поставил в тупик большинство ИИ-моделей. Согласно рейтингу, рассуждающие модели, такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1 % до 1,3 %. Модели без логического мышления, включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали менее 1 %.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь в области искусственного интеллекта Франсуа Шолле (François Chollet), объявил в своём блоге о создании нового, более продвинутого теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.

Тест ARC-AGI-2 представляет собой серию головоломок, в которых ИИ должен распознать визуальные закономерности, анализируя разноцветные квадраты, и на основе этого построить правильное продолжение узора. Испытание специально разработано так, чтобы модели не могли полагаться на прошлый опыт и вынуждены были адаптироваться к новым задачам.

Также Arc Prize Foundation провела тестирование с участием более 400 человек. В среднем группы испытуемых верно ответили на 60 % заданий. Это значительно превосходит показатели всех протестированных ИИ и одновременно подчёркивает разрыв между текущими возможностями ИИ и интеллектом людей в решении задач, требующих адаптации и понимания новых концепций.

Шолле заявил, что ARC-AGI-2 является более точным показателем реального интеллекта ИИ-моделей, чем предыдущая версия теста ARC-AGI-1. Кроме того, ARC-AGI-2 исключает возможность решения задач «методом грубой силы», то есть путём использования огромной вычислительной мощности для перебора всех возможных вариантов, что происходило в тесте ARC-AGI-1 и было признано серьёзным недостатком.

Для устранения погрешностей первого теста в ARC-AGI-2 была введена метрика эффективности, которая заставляла ИИ интерпретировать паттерны «на лету», а не полагаться на запоминание. Сооснователь Arc Prize Foundation Грег Камрадт (Greg Kamradt) отметил, что «интеллект определяется не только способностью решать задачи или достигать высоких результатов, но и эффективностью, с которой приобретаются и развёртываются эти возможности».

ARC-AGI-1 оставался ведущей метрикой в течение примерно пяти лет, пока в декабре 2024 года OpenAI не выпустила свою продвинутую модель рассуждений o3. Эта модель превзошла все другие ИИ-модели и даже сравнялась с производительностью человека в тестах ARC-AGI-1. Однако, как было отмечено, эти достижения были достигнуты за счёт значительных вычислительных затрат.

Разработка нового теста совпала с ростом обеспокоенности в индустрии по поводу недостатка объективных критериев для оценки искусственного интеллекта. В связи с этим Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025, в котором разработчикам предлагается достичь 85 % точности на ARC-AGI-2, затратив при этом вычислительных затрат не более, чем $0,42 на задачу.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Приложение Fitbit превратилось в Google Health — и сможет собирать данные о здоровье даже из Apple Health 20 мин.
Новый стандарт жанра для вселенной «Чужих»: анонсирован амбициозный кооперативный шутер Aliens: Fireteam Elite 2 2 ч.
В Steam вышло атмосферное сюжетное приключение Will: Follow The Light о поиске смысла «даже в темноте» 3 ч.
Заряженное ностальгией музыкальное приключение Mixtape от создателей The Artful Escape очаровало критиков — игра доступна в российском Steam 4 ч.
IBM когда-то хотела отказаться от навигации с клавишей Tab — Microsoft не согласилась, сославшись на маму Билла Гейтса 5 ч.
ИИ с «глазами» оказался в разы дороже обычного API — агенты сжигают бюджеты, ходя по сайтам 5 ч.
Глава Take-Two взял вину за неудачи Sid Meier’s Civilization VII на себя, а обновление Test of Time исправит главную проблему игры 5 ч.
Доля российского ПО в госсекторе превысила 75 % 5 ч.
Фейковый сайт ИИ-бота Claude распространяет новый вредонос Beagle для Windows 5 ч.
Созданные с помощью ИИ сайты кишат уязвимостями — разработчики ИИ-сервисов валят всё на клиентов 7 ч.
GeIL анонсировала модули DDR5, которые работают со скоростью 8000 МТ/с без разгона 10 мин.
AMD выпустила ИИ-ускоритель Instinct MI350P с 144 Гбайт HBM3E, PCIe 5.0 x16 и потреблением 600 Вт 18 мин.
Компания Ploopy «отделила» культовый манипулятор TrackPoint от ноутбуков ThinkPad и превратила его в портативную мышь 2 ч.
Google анонсировала Fitbit Air — лёгкий фитнес-трекер без экрана за $99 с круглосуточным отслеживанием активности владельца 2 ч.
Apple закажет новую партию чипов A18 Pro из-за высокого спроса на MacBook Neo 5 ч.
Iridium анонсировала PNT-решение для безошибочного позиционирования и синхронизации времени Project Authentic 5 ч.
Hisense представила игровой 5K-монитор GX Ultra с частотой обновления 180 Гц 6 ч.
200 Тфлопс в FP64: AMD поделилась первыми подробностями об Instinct MI430X 6 ч.
OnePlus представила смартфон Nord CE6 с батареей на 8000 мА·ч за $320 и модель Nord CE6 Lite подешевле 7 ч.
Google объяснила, как ИИ читает Gmail — и что делает с данными 7 ч.