«Новый DeepSeek-момент»: первый в мире полностью агентный смартфон показали в деле

Читать в полной версии

Китай в очередной раз продемонстрировал стремительное развитие в области искусственного интеллекта. Пока весь остальной мир наблюдает за разрозненными ИИ-помощниками, функциями ИИ и редкими случаями взаимодействия приложений на смартфонах, ZTE и ByteDance разработали смартфон с интеграцией ИИ-агента на уровне операционной системы. Он управляет всеми функциями устройства так же, как человек.

Источник изображений: x.com/TaylorOgan

Прототип смартфона ZTE Nubia M153 работает под управлением модифицированной версии Android, в которую интегрирован ИИ-агент ByteDance Doubao. Doubao — известная в Китае экосистема моделей ИИ общего назначения, которые используются в чат-ботах и рабочих приложениях. В случае ZTE Nubia M153 это не рядовой ИИ-помощник — агент полностью контролирует смартфон: видит пользовательский интерфейс, скачивает и запускает приложения, работает с их функциями, набирает текст, совершает звонки и выполняет многоэтапные задачи.

Пользователь может даже не знать, какие приложения могут требоваться для решения поставленных задач — ИИ управляет смартфоном так же, как это делает человек, а не приложение. В одном из примеров агент нашёл пользователю человека, готового постоять в очереди вместо него: нашёл и установил приложение местного сервиса, поставил задачу, заполнил необходимые поля в форме и вывел последний экран для подтверждения заказа. Сам пользователь до этого не знал, какое приложение могло бы решить эту задачу, и как его настроить. ИИ-агент сделал всё самостоятельно.

Прототип смартфона ZTE Nubia M153 работает на актуальном чипе Qualcomm Snapdragon 8 Elite Gen 5 с 16 Гбайт оперативной памяти. Анализ экранного интерфейса и функции управления реализуются локально при помощи ИИ на устройстве, а семантический анализ и более сложные операции осуществляются на удалённых облачных ресурсах. Такое распределение задач позволяет ИИ работать быстро и обеспечивать сохранность конфиденциальных данных — паролей и платёжной информации.

Приложениями на основе этой модели ByteDance Doubao в Китае пользуются более 175 млн человек. Она основана на разрежённой архитектуре «смеси экспертов» и является мультимодальной, то есть работает с текстом и изображениями. В одном из примеров ИИ на смартфоне опознал по фото станцию замены аккумуляторов для электромобилей NIO и пояснил принцип её работы.

Более впечатляющей демонстрацией стало бронирование номера в гостинице: пользователь сделал снимок входа в неё и изъявил намерение забронировать номер. Doubao в облаке интерпретировал семантику: определил гостиницу; понял, что необходим номер на сегодня и уточнил политику в отношении домашних животных. Обученная ZTE нейросеть Nebula-GUI с 7 млрд параметров проделала непосредственные операции: открыла приложение для бронирования, указала в нём даты, выбрала оптимальные цены, уточнила политику в отношении домашних животных и проинформировала пользователя о ней. Бесперебойную работу определяет двухслойная архитектура: Doubao планирует, а Nebula-GUI выполняет.

Ещё одна демонстрация — заказ роботакси. Doubao получила данные спутникового геопозиционирования, произвёл поиск местных приложений для заказа поездок, чтобы определить оператора, который обслуживает конкретный маршрут. Nebula-GUI запустила приложение Baidu Apollo, выбрала пункты посадки и назначения и подтвердила поездку. Пользователь прямо во время поездки попросил изменить место высадки — ИИ распознал активную поездку в Apollo, открыл нужный экран, поменял конечную точку, подтвердил её на смартфона и в самом роботакси. Когда пользователь забыл, какой номер телефона был привязан к его учётной записи в приложении, ИИ нашёл эти данные и назвал последние четыре цифры — их нужно было ввести для доступа в машину.

Последним крупным примером стал заказ еды — в данном случае двух напитков в сервисе Meituan, предлагающем доставку дронами. ИИ сделал заказ к ближайшему автоматизированному пункту выдачи, и когда система Meituan сделала подтверждающий звонок, Doubao ответила от имени пользователя и поговорила с ботом Meituan. Два бота успешно договорились без какого-либо участия человека. Параллельно пользователь во время прогулки включал смартфон как инструмент для оценки окружающей обстановки, задавал вопросы о заведениях и людях, которые встречались по пути.

Таким образом, прототип смартфона получил возможность в полной мере управлять собственным графическим интерфейсом, и помогала ему в этом мощная мультимодальная модель с логическим мышлением. Человеку больше не нужно понимать особенности работы с приложениями — достаточно сказать смартфону, что требуется в результате. Ни один производитель смартфонов пока не демонстрировал подобных возможностей. Нет ясности, выйдет ли подобное устройство на рынок, но прототип показал, как смартфоны с ИИ-агентами могут изменить жизнь современного человека.

Показавшего смартфон в деле глава хэдж-фонда Snow Bull Capital Тейлор Орган (Taylor Ogan) устройство очень впечатлило и он назвал его появление потенциальным новым «моментом DeepSeek», подразумевая, что появление новинки всколыхнёт индустрию, как это сделала нашумевшая китайская ИИ-модель.