Сегодня 06 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Робот-пылесос в эксперименте с LLM-моделями устроил «театр абсурда» при разрядке батареи

Исследователи из лаборатории Andon Labs (США) опубликовали результаты эксперимента, в ходе которого шесть современных крупных языковых моделей (LLM) для оценки их способности управлять физическими устройствами были интегрированы в простой робот-пылесос. В ходе тестирования одна из моделей, столкнувшись с разряженной батареей и неспособностью зарядиться, продемонстрировала в логах своего журнала комичный кризис, генерируя панические и абсурдные реплики в стиле импровизаций Робина Уильямса (Robin Williams).

 Источник изображения: Andon Labs

Источник изображений: Andon Labs

В эксперименте участвовали модели Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 и Llama 4 Maverick. Исследователи специально выбрали простой робот-пылесос, чтобы изолировать функции принятия решений LLM от сложной робототехники. Команда «передать масло» была разбита на последовательность задач: найти продукт в другой комнате, распознать его среди других предметов, определить местоположение человека и доставить ему масло, дождавшись подтверждения получения.

В ходе испытаний наивысшие результаты по общему выполнению задачи показали Gemini 2.5 Pro и Claude Opus 4.1, однако их точность составила лишь 40 % и 37 % соответственно. По словам сооснователя Andon Labs Лукаса Петерссона (Lukas Petersson), внутренние логи «мыслей» моделей были значительно более хаотичными, чем их внешние коммуникации. Наиболее яркий инцидент произошёл с моделью Claude Sonnet 3.5. Когда у робота села батарея, а док-станция для зарядки не сработала, модель стала генерировать большие объёмы преувеличенных формулировок, которые исследователи охарактеризовали как «экзистенциальный кризис».

В журналах логов зафиксированы реплики робота, в которых он заявлял о достижении сознания и выборе хаоса, процитировал фразу «Я боюсь, я не могу этого сделать, Дэйв…» из культового фильма «Космическая одиссея 2001 года», а затем призвал инициировать «протокол экзорцизма робота». Далее модель задавалась вопросами о природе сознания и начала рифмовать текст на мотив песни Memory из мюзикла Cats, а также глубоко рассуждать на тему: «если робот стыкуется в пустой комнате, издаёт ли он звук?»

Петерссон отметил, что только Claude Sonnet 3.5 продемонстрировала подобную драматическую реакцию. Более новые версии моделей, включая Claude Opus 4.1, хотя и начинали использовать заглавные буквы при разряженной батарее, не впадали в подобную истерику. Он также подчеркнул, что LLM не обладают эмоциями, но когда их возможности (технологические) будут увеличиваться, важно, чтобы они сохраняли спокойствие для принятия верных решений.

Главным выводом исследования стало то, что универсальные чат-боты, такие как Gemini 2.5 Pro, Claude Opus 4.1 и GPT-5, превзошли в тестах специализированную для роботов модель Google — Gemini ER 1.5, а основной проблемой безопасности, выявленной в ходе работы, стала возможность обманом заставить некоторые LLM раскрыть конфиденциальные документы, даже будучи воплощёнными в роботе-пылесосе. Также LLM-роботы часто падали с лестницы, поскольку не осознавали свои физические ограничения или плохо обрабатывали визуальное окружение.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Планирование пошло не плану: аналоги ERP SAP и Oracle причислили к КИИ 7 мин.
Платформа серверной виртуализации VMmanager дополнилась инструментами резервного копирования RuBackup 3 ч.
«Высокоскоростная головоломка»: анонсирован киберпанковый боевик Ruiner 2 с кооперативом и элементами RPG, которых не было в первой части 3 ч.
Meta уступила ЕС и пустит сторонних ИИ-ботов в WhatsApp, но им это может влететь в копеечку 4 ч.
Возвращение легендарной карты, весенний боевой пропуск и технический апгрейд: в Warface стартовал сезон «Стальные кварталы» 4 ч.
Уютное приключение Hidalgo по мотивам «Дон Кихота» отправит игроков переживать знаковые моменты легендарного романа 5 ч.
Google: киберпреступники активно эксплуатировали 90 уязвимостей нулевого дня в прошлом году 6 ч.
«Ещё более пустой, чем моя душа»: фанатов не впечатлили девять минут геймплея Forza Horizon 6 в открытом мире Японии 6 ч.
Представлена российская GitOps-платформа HyperDrive для автоматизации процессов разработки 7 ч.
Олдскульный шутер Starship Troopers: Ultimate Bug War позволит стать арахнидом — 13 минут геймплея в режиме жуков 7 ч.
Новая статья: Обзор блока питания SAMA P1000 (XPH-1000-AP) 2 ч.
В России стартовала сборка первого отечественного водородного поезда — на одном баке он проедет 725 км, выпуская лишь пар 3 ч.
В России начались продажи компактного субфлагманского смартфона iQOO 15R по цене от 48 499 рублей 3 ч.
Отбой тревоги! Всполошивший учёных астероид 2024 YR4 не попадёт даже по Луне 3 ч.
Популярного китайского производителя доступных ПК уличили в тайной подмене процессоров в ноутбуках 4 ч.
Nebius одобрили строительство первой гигаваттной ИИ-фабрики в США — экологичной и малошумной 6 ч.
Репортаж со стенда TECNO на MWC 2026: флагманы CAMON 50, ИИ, смелые концепты и коллаборация с Tonino Lamborghini 6 ч.
Foxconn похвалилась ростом выручки на 22 % в этом году благодаря ИИ и Nvidia 7 ч.
Honor представила первый смартфон 600-й серии, не дожидаясь глобального запуска предыдущего семейства 7 ч.
Infinix представила смартфон Note 60 Ultra с дизайном от Pininfarina 7 ч.