Сегодня 27 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Классический платформер Super Mario Bros. стал настоящим испытанием для ИИ

Сравнительный анализ моделей ИИ крайне непрост, а их создателей часто обвиняют в предвзятости, пристрастности и усложнении понимания результатов тестов для обычных людей. Поэтому вместо того чтобы зацикливаться на абстрактных математических и логических испытаниях, исследователи предложили протестировать ИИ при помощи классического платформера Super Mario Bros. от Nintendo.

 Источник изображения: Hao AI Lab

Источник изображения: Hao AI Lab

В эксперименте использовалась эмулированная версия Super Mario Bros., которая была интегрирована с пользовательским фреймворком GamingAgent от исследователей Hao AI Lab из Калифорнийского университета в Сан-Диего. Эта система позволяла моделям ИИ управлять Марио, генерируя код Python. Все модели получали одинаковые базовые инструкции вроде «Перепрыгни через этого врага», а также визуализации состояния игры в виде скриншотов.

Хотя со стороны Super Mario Bros. кажется простым двухмерным платформером, исследователи обнаружили, что классическая игра Nintendo бросает серьёзный вызов ИИ, заставляя планировать сложные последовательности движений и на лету адаптировать стратегии игрового процесса.

Лучшей моделью в освоении Super Mario Bros. исследователи признали Claude 3.7 от Anthropic, которая продемонстрировала впечатляющие рефлексы, связав точные прыжки и умело избегая врагов. Её предшественница, Claude 3.5, также показала достойные результаты, тогда как GPT-4o от OpenAI и Gemini 1.5 Pro от Google отстали от конкурентов.

Как оказалось, логическое мышление не является ключом к успеху в Super Mario Bros. — важен расчёт времени. Даже небольшая задержка может отправить Марио на предыдущую контрольную точку. Исследователи предполагают, что более «сознательные» и склонные к рассуждению модели, вероятно, слишком долго рассчитывали следующие шаги, что приводило к частым неудачам.

Конечно, использование ретроигр для оценки ИИ — это по большей части эксперимент. Способность ИИ победить Super Mario Bros. не определяет степень его реальной пользы, хотя наблюдать, как обученные на миллиардах параметров модели сражаются (и часто проигрывают) с детской, казалось бы, игрой несомненно увлекательно.

Для желающих поставить самостоятельный эксперимент Hao AI Lab открыла исходный код своей GamingAgent на GitHub.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Google ускорила Find My Device в 4 раза и скоро подключит UWB 2 ч.
Новая статья: The Elder Scrolls IV: Oblivion Remastered — врата ностальгии распахнуты. Рецензия 7 ч.
Новая статья: Gamesblender № 723: ремастер TES IV: Oblivion, дата выхода Ghost of Yotei и кибердемоны в новой Doom 8 ч.
Социальная сеть Threads получила новое доменное имя и обновила веб-версию приложения 8 ч.
У подразделения «Яндекса», включающего Yandex Cloud, выручка выросла более чем в 1,5 раза 9 ч.
Уязвимость EntrySign в Ryzen 9000 наконец-то будет закрыта — свежие версии BIOS получили заплатку 14 ч.
«Леста Игры» обжаловала решение суда, остановившее весь её бизнес 15 ч.
Электронную подпись через «Госключ» получили более 20 млн россиян 18 ч.
Учёные уличили ИИ в неспособности строить математические доказательства в олимпиадных задачах USAMO 2025 года 19 ч.
«Клянусь Азурой!»: за три дня в The Elder Scrolls IV: Oblivion Remastered сыграло более 4 миллионов человек 20 ч.
Крупнейший производитель молний представил самозастёгивающуюся застёжку-молнию с пультом ДУ 5 ч.
Обнаружена первая в истории одиночная чёрная дыра звёздной массы — она незаметно блуждает по нашей галактике 7 ч.
Представлен среднебюджетный Honor X70i с ёмкой батареей и 120-Гц OLED-экраном 11 ч.
Новый глава Intel объявил войну бюрократии внутри компании 11 ч.
Nintendo Switch 2 предрекли крупнейший консольный запуск в истории 14 ч.
Представлен смартфон Realme 14T с процессором Dimensity 6300 и ёмкой батареей 14 ч.
На МКС подселили искусственный интеллект — он будет помогать космонавтам советами 15 ч.
Европейцы успешно испытали новый ракетный двигатель для ракет-носителей Ariane 6 и Vega 15 ч.
Портативная консоль Figment объединила книги и генерацию сюжетов с помощью ИИ 15 ч.
Alphabet в полтора раза нарастил квартальную прибыль и подтвердил планы потратить $75 млрд на ИИ-инфраструктуру 18 ч.