Сегодня 16 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Классический платформер Super Mario Bros. стал настоящим испытанием для ИИ

Сравнительный анализ моделей ИИ крайне непрост, а их создателей часто обвиняют в предвзятости, пристрастности и усложнении понимания результатов тестов для обычных людей. Поэтому вместо того чтобы зацикливаться на абстрактных математических и логических испытаниях, исследователи предложили протестировать ИИ при помощи классического платформера Super Mario Bros. от Nintendo.

 Источник изображения: Hao AI Lab

Источник изображения: Hao AI Lab

В эксперименте использовалась эмулированная версия Super Mario Bros., которая была интегрирована с пользовательским фреймворком GamingAgent от исследователей Hao AI Lab из Калифорнийского университета в Сан-Диего. Эта система позволяла моделям ИИ управлять Марио, генерируя код Python. Все модели получали одинаковые базовые инструкции вроде «Перепрыгни через этого врага», а также визуализации состояния игры в виде скриншотов.

Хотя со стороны Super Mario Bros. кажется простым двухмерным платформером, исследователи обнаружили, что классическая игра Nintendo бросает серьёзный вызов ИИ, заставляя планировать сложные последовательности движений и на лету адаптировать стратегии игрового процесса.

Лучшей моделью в освоении Super Mario Bros. исследователи признали Claude 3.7 от Anthropic, которая продемонстрировала впечатляющие рефлексы, связав точные прыжки и умело избегая врагов. Её предшественница, Claude 3.5, также показала достойные результаты, тогда как GPT-4o от OpenAI и Gemini 1.5 Pro от Google отстали от конкурентов.

Как оказалось, логическое мышление не является ключом к успеху в Super Mario Bros. — важен расчёт времени. Даже небольшая задержка может отправить Марио на предыдущую контрольную точку. Исследователи предполагают, что более «сознательные» и склонные к рассуждению модели, вероятно, слишком долго рассчитывали следующие шаги, что приводило к частым неудачам.

Конечно, использование ретроигр для оценки ИИ — это по большей части эксперимент. Способность ИИ победить Super Mario Bros. не определяет степень его реальной пользы, хотя наблюдать, как обученные на миллиардах параметров модели сражаются (и часто проигрывают) с детской, казалось бы, игрой несомненно увлекательно.

Для желающих поставить самостоятельный эксперимент Hao AI Lab открыла исходный код своей GamingAgent на GitHub.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
TikTok в США продолжит использовать китайские алгоритмы, а за инфраструктуру будет отвечать Oracle 17 мин.
15 хакерских группировок объявили о закрытии — хакеры хотят насладиться «золотыми парашютами» 19 мин.
«Яндекс» научил «Алису» оживлять фото 57 мин.
OpenAI приняла на работу сбежавшего из xAI финансового директора 58 мин.
Хакеры украли данные миллионов клиентов Gucci и Balenciaga, включая информацию о покупках 2 ч.
Диски уходят: продажи игр на физических носителях в прошлом году принесли Sony только 3 % от общего объёма выручки 2 ч.
Уникальная и действительно жуткая: журналистка раскрыла первую оценку Silent Hill f за неделю до окончания эмбарго 2 ч.
Вышла Apple macOS Tahoe 26 — она получила интерфейс Liquid Glass, новые средства автоматизации и многое другое 3 ч.
Планы Sony на сентябрьский выпуск State of Play подтвердил ещё один инсайдер — шоу пройдёт совсем скоро 4 ч.
Спустя полтора года в раннем доступе нашумевший симулятор «покемонов с пушками» Palworld взял курс на полноценный релиз 5 ч.
ATP выпустила индустриальные SSD серий N701/N601 вместимостью до 960 Гбайт 4 мин.
Китайский регулятор обвинил NVIDIA в нарушении антимонопольного законодательства при покупке Mellanox 6 мин.
Сделанный для Китая ускоритель Nvidia RTX 6000D провалился в продаже — GeForce RTX 5090 лучше 22 мин.
Встроенная в DDR5 защита от атаки Rowhammer оказалась с дырой — любую современную систему можно взломать 26 мин.
Смартфон Xiaomi 17 Pro показался на видео — у него будет второй дисплей в блоке камер 43 мин.
BlackRock вложит до £500 млн в развитие дата-центров в Великобритании 2 ч.
Silver Lake закрыла сделку по покупке контролирующей доли в бизнесе Altera 2 ч.
OpenAI планирует заняться гуманоидными роботами и собирает команду специалистов в робототехнике 3 ч.
В числе первых чипов, которые выпустит TSMC по 2-нм техпроцессу, окажется следующий Mediatek Dimensity 3 ч.
eSIM от Yesim: как забыть о роуминге и не остаться без связи за границей 4 ч.