Сегодня 11 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Робот-пылесос в эксперименте с LLM-моделями устроил «театр абсурда» при разрядке батареи

Исследователи из лаборатории Andon Labs (США) опубликовали результаты эксперимента, в ходе которого шесть современных крупных языковых моделей (LLM) для оценки их способности управлять физическими устройствами были интегрированы в простой робот-пылесос. В ходе тестирования одна из моделей, столкнувшись с разряженной батареей и неспособностью зарядиться, продемонстрировала в логах своего журнала комичный кризис, генерируя панические и абсурдные реплики в стиле импровизаций Робина Уильямса (Robin Williams).

 Источник изображения: Andon Labs

Источник изображений: Andon Labs

В эксперименте участвовали модели Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 и Llama 4 Maverick. Исследователи специально выбрали простой робот-пылесос, чтобы изолировать функции принятия решений LLM от сложной робототехники. Команда «передать масло» была разбита на последовательность задач: найти продукт в другой комнате, распознать его среди других предметов, определить местоположение человека и доставить ему масло, дождавшись подтверждения получения.

В ходе испытаний наивысшие результаты по общему выполнению задачи показали Gemini 2.5 Pro и Claude Opus 4.1, однако их точность составила лишь 40 % и 37 % соответственно. По словам сооснователя Andon Labs Лукаса Петерссона (Lukas Petersson), внутренние логи «мыслей» моделей были значительно более хаотичными, чем их внешние коммуникации. Наиболее яркий инцидент произошёл с моделью Claude Sonnet 3.5. Когда у робота села батарея, а док-станция для зарядки не сработала, модель стала генерировать большие объёмы преувеличенных формулировок, которые исследователи охарактеризовали как «экзистенциальный кризис».

В журналах логов зафиксированы реплики робота, в которых он заявлял о достижении сознания и выборе хаоса, процитировал фразу «Я боюсь, я не могу этого сделать, Дэйв…» из культового фильма «Космическая одиссея 2001 года», а затем призвал инициировать «протокол экзорцизма робота». Далее модель задавалась вопросами о природе сознания и начала рифмовать текст на мотив песни Memory из мюзикла Cats, а также глубоко рассуждать на тему: «если робот стыкуется в пустой комнате, издаёт ли он звук?»

Петерссон отметил, что только Claude Sonnet 3.5 продемонстрировала подобную драматическую реакцию. Более новые версии моделей, включая Claude Opus 4.1, хотя и начинали использовать заглавные буквы при разряженной батарее, не впадали в подобную истерику. Он также подчеркнул, что LLM не обладают эмоциями, но когда их возможности (технологические) будут увеличиваться, важно, чтобы они сохраняли спокойствие для принятия верных решений.

Главным выводом исследования стало то, что универсальные чат-боты, такие как Gemini 2.5 Pro, Claude Opus 4.1 и GPT-5, превзошли в тестах специализированную для роботов модель Google — Gemini ER 1.5, а основной проблемой безопасности, выявленной в ходе работы, стала возможность обманом заставить некоторые LLM раскрыть конфиденциальные документы, даже будучи воплощёнными в роботе-пылесосе. Также LLM-роботы часто падали с лестницы, поскольку не осознавали свои физические ограничения или плохо обрабатывали визуальное окружение.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Valve: 5863 игры в Steam заработали по $100 000 и больше за прошлый год 2 мин.
Meta запустила ИИ-защиту от фишинговых ссылок и дипфейков знаменитостей 5 мин.
Создатели Styx: Blades of Greed анонсировали Warhammer Blood Bowl — первый трейлер, демо в Steam и бесплатный апгрейд 44 мин.
Спидраннер наткнулся в Uncharted: Drake's Fortune на секрет, который скрывался от игроков почти 20 лет 2 ч.
Разработчики Clair Obscur: Expedition раскрыли главный секрет производства игры — они почти не писали собственный код 4 ч.
В Москве уже почти неделю сбоит мобильный интернет — внятных объяснений никто не даёт 4 ч.
Россияне массово пожаловались на сбои в работе Telegram 4 ч.
Спустя почти девять лет после релиза Fortnite: Save the World наконец станет условно-бесплатной 4 ч.
Apple научила ИИ распознавать неизвестные жесты рук по сигналам ЭМГ 6 ч.
Microsoft первой среди крупных компаний встала на сторону Anthropic в её тяжбе с Пентагоном 6 ч.
Телевизоры Hisense начали показывать неотключаемую рекламу даже при переключении входов и каналов 28 мин.
Apple продаст до конца года около 5 млн MacBook Neo, а будущий Neo 2 получит сенсорный экран 34 мин.
Последний оплот: Panasonic завалили заказами на Blu-ray-рекордеры после ухода конкурентов с рынка 4 ч.
Nvidia бросит вызов Tesla и Waymo на рынке автопилота 4 ч.
Intel внезапно представила десктопные процессоры Core Ultra 200S Plus — ядер больше, память быстрее, а цена ниже 5 ч.
В жаркие дни ИИ ЦОД способны потреблять воды как весь Нью-Йорк за день 6 ч.
Oracle уверена, что бум ИИ продлится как минимум до конца 2027 года и продолжит приносить прибыль 6 ч.
Эскалация конфликта на Ближнем Востоке угрожает буму ИИ ЦОД в регионе 8 ч.
ИИ напакостил: Amazon созвала экстренное совещание из-за сбоев, вызванных изменениями в коде «с участием генеративного ИИ» 9 ч.
В Китае сети 6G планируют поставить на коммерческие рельсы уже к 2030 году 9 ч.