Сегодня 19 марта 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → видео
Быстрый переход

ChatGPT обрёл тело — OpenAI и Figure сделали умного робота-гуманоида, который полноценно общается с людьми

Американский стартап Figure показал первые плоды сотрудничества с компанией OpenAI по расширению возможностей гуманоидных роботов. Figure опубликовала новое видео со своим роботом Figure 01, ведущим диалог с человеком в режиме реального времени. Машина на видео отвечает на вопросы и выполняет его команды.

 Источник изображения: Figure

Источник изображения: Figure

Стремительный темп развития проекта Figure 01 и компании Figure в целом не может не впечатлять. Бизнесмен и основатель стартапа Бретт Эдкок (Brett Adcock) «вышел из тени» год назад, после того как компания привлекла внимание крупных игроков на рынке робототехники и технологий искусственного интеллекта, включая Boston Dynamics, Tesla Google DeepMind, Archer Aviation и других, и поставила цель «создать первого в мире коммерчески доступного гуманоидного робота общего назначения».

К октябрю того же года Figure 01 «встал на ноги» и продемонстрировал свои возможности в выполнении базовых автономных задач. К концу всё того же 2023 года робот обрёл возможность обучаться выполнению различных задач. К середине января Figure подписала первый коммерческий контракт на использование Figure 01 на автомобильном заводе компании BMW в североамериканском штата Северная Каролина.

В прошлом месяце Figure опубликовала видео, на котором Figure 01 выполняет работу на складе. Практически сразу после этого компания анонсировала разработку второго поколения машины и объявила о сотрудничестве с OpenAI «по разработке нового поколения ИИ-моделей для гуманоидных роботов». Сегодня Figure поделилась видео, в котором демонстрируются первые результаты этого сотрудничества.

Через свою страницу в X (бывший Twitter) Адкок сообщил, что встроенные в Figure 01 камеры отправляют данные в большую визуально-языковую модель ИИ, обученную OpenAI, в то время как собственные нейросети Figure «также через камеры робота захватывает изображение окружения с частотой 10 Гц». Алгоритмы OpenAI также отвечают за возможность робота понимать человеческую речь, а нейросеть Figure преобразует поток полученной информации в «быстрые, низкоуровневые и ловкие действия робота».

Глава Figure утверждает, что во время демонстрации робот не управлялся дистанционно и видео показано с реальной скоростью. «Наша цель — научить мировую модель ИИ управлять роботами-гуманоидами на уровне миллиардов единиц», — добавил руководитель стартапа. При таком темпе развития проекта ждать осталось не так уж и долго.

OpenAI сделает ИИ-генератор видео Sora общедоступным позднее в этом году

В феврале OpenAI впервые продемонстрировала нейросеть Sora, способную генерировать реалистичные видео из текстовых описаний. Пока этот инструмент доступен лишь для художников, дизайнеров и кинематографистов. Сегодня технический директор OpenAI Мира Мурати (Mira Murati) сообщила, что Sora станет доступна широкой публике «позднее в этом году». Мурати пообещала, что к способности Sora создавать видео добавится генерация звукового сопровождения, что сделает ролики ещё более реалистичными.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Сейчас OpenAI работает над возможностью редактирования контента в видеороликах Sora, поскольку инструменты искусственного интеллекта не всегда создают точные изображения. «Мы пытаемся выяснить, как использовать эту технологию в качестве инструмента, с помощью которого люди смогут редактировать медиаконтент», — рассказала Мурати.

Мурати уклонилась от ответа на вопрос, какие данные OpenAI использовала для обучения Sora. «Я не собираюсь вдаваться в подробности использованных данных, но это были общедоступные или лицензированные данные», — заявила она. Мурати не подтвердила и не опровергла использование видео с YouTube, Facebook и Instagram. Она отметила, что Sora использует контент фотохостинга Shutterstock, с которым у OpenAI заключено партнёрское соглашение.

Мурати рассказала, что на сегодняшний день Sora отличается от других моделей ИИ повышенными требованиями к вычислительным ресурсам. OpenAI работает над тем, чтобы сделать этот инструмент «доступным по той же цене», что и модель DALL-Eдля преобразования текста в изображение.

Опасения в обществе по поводу инструментов генеративного ИИ и их способности создавать дезинформацию усиливаются. По словам Мурати, Sora не сможет создавать изображения общественных деятелей, как и DALL-E. Видео от Sora также будут включать водяные знаки, но они не являются идеальной защитой и могут быть удалены из видео при помощи ИИ или традиционных технологий.

Люди не смогли отличить созданные нейросетью OpenAI Sora видео от настоящих

Несколько недель назад компания Open AI представила нейросеть Sora, способную по текстовому описанию генерировать реалистичное видео продолжительностью до одной минуты с разрешением 1920 × 1080 пикселей. Теперь же компания HarrisX провела опрос, предлагая взрослым американцам отличить сгенерированное ИИ видео от настоящего. Оказалось, что большая часть респондентов ошиблась в 5 из 8 предлагаемых в рамках опроса роликов.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

В опросе, который проходил в период с 1 по 4 марта в США, участвовали более 1000 американцев. Авторы исследования сгенерировали четыре высококачественных ролика с помощью нейросети Sora, а также выбрали четыре небольших видео, которые были сняты на камеру в реальном мире. Респондентам в случайном порядке показывали эти видео, а их цель была определить, снят ролик человеком или его сгенерировал ИИ. Мнения участников опроса разделились, но при этом в 5 из 8 случаев большая часть респондентов дала неверный ответ.

Это исследование указывает на то, что создаваемый с помощью генеративных нейросетей контент становится всё более реалистичным и отличить его от реального всё труднее. Именно поэтому в разных странах стали чаще звучать призывы к властям о необходимости законодательного регулирования этого сегмента. В числе прочего предлагается обязать пользователей нейросетей помечать генерируемый контент соответствующим образом, чтобы он не вводил других в заблуждение и не мог стать источником дезинформации.

 Источник изображения: variety.com

Источник изображения: variety.com

Алгоритм Sora ещё недоступен широкой публике, но уже сейчас он вызывает серьёзную тревогу в обществе, особенно в индустрии развлечений, где развитие технологий генерации видео влечёт массу негативных последствий, например, для киностудий. Более того, всё чаще поднимается вопрос о том, что подобные Sora алгоритмы могут использоваться для создания фейковых видео с участием политиков и знаменитостей, что может привести к самым непредсказуемым последствиям.

Соцсеть X Илона Маска запустит аналог YouTube для умных телевизоров

Компания X Илона Маска (Elon Musk), владелец одноимённой соцсети, вскоре запустит приложение для SmartTV, сообщил ресурс Fortune со ссылкой на информированный источник. По словам источника, приложение выйдет на следующей неделе, и оно выглядит «идентично» телевизионному приложению YouTube. Поначалу приложение будет доступно на телевизорах Amazon и Samsung.

 Источник изображения: X

Источник изображения: X

Цель Маска — превратить X в видеоплатформу, способную конкурировать с YouTube, которая предоставит пользователям возможность смотреть «продолжительные видео на большом экране». Этот шаг является частью плана, представленного в июле и призванного сделать X более привлекательной для интернет-инфлюэнсеров и рекламодателей. По словам источника, помимо YouTube Маск также планирует конкурировать с такими сервисами как Twitch, Signal и социальной платформой Reddit.

Идея расширить присутствие сервиса микроблогинга на экраны телевизоров не нова. До этого Twitter запускал телевизионные приложения как минимум три раза: первые версии вышли в 2010 году на ныне несуществующей платформе Google TV и в 2011 году на платформе Samsung Smart Hub для SmartTV. В 2016 году, после заключения сделки на трансляцию 10 игр НФЛ компания запустила приложения для потоковой передачи видео для Amazon Fire TV, Apple TV и Xbox One.

Fortune отметил, что Маск сосредоточил внимание на медийных знаменитостях, онлайн-инфлюэнсерах и стриминге онлайн-видеоигр. Компания недавно подписала контракт с бывшей звездой CNN Доном Лемоном (Don Lemon) на запуск нового шоу исключительно для X, а бывший ведущий Fox News Такер Карлсон (Tucker Carlson) часто публикует продолжительные видео на X, в числе которых недавнее интервью с президентом России Владимиром Путиным.

Маск призвал авторов перенести весь свой видеоконтент на X, утверждая, что они выиграют от увеличения потоков рекламных доходов. Сообщается, что почти половина пользователей YouTube в США в 2023 году смотрели его видео на телевизорах, а в январе компания Nielsen сообщила, что YouTube является крупнейшим потоковым сервисом в США с 8,6 % просмотров на телевизионных экранах. Для сравнения, у Netflix этот показатель равен 7,9 %.

Вместе с тем соцсеть X по-прежнему теряет пользователей и рекламодателей. Согласно недавнему исследованию Edison Research, использование платформы упало на 30 % за последний год.

Alibaba представила нейросеть EMO — она оживляет портреты, заставляя их разговаривать и даже петь

Исследователи из Института интеллектуальных вычислений Alibaba разработали (PDF) систему искусственного интеллекта EMO (Emote Portrait Alive), которая анимирует статическое изображение человека, заставляя его реалистично говорить или петь.

 Источник изображения: youtube.com/@ai_beauty303

Источник изображения: youtube.com/@ai_beauty303

Система изображает реалистичную мимику и движения головы, точно соответствующие эмоциональным оттенкам звукового ряда, на основе которого генерируется анимация. «Традиционные методы зачастую неспособны передать полный спектр человеческих выражений лица и уникальность отдельных его стилей. Для решения этих проблемы мы предлагаем EMO — новый фреймворк, использующий подход прямого синтеза из аудио в видео, минуя потребность в промежуточных 3D-моделях или лицевых опорных точках», — пояснил глава группы разработчиков Линьжуй Тянь (Linrui Tian).

В основе системы EMO лежит диффузионная модель ИИ, зарекомендовавшая себя как способная генерировать реалистичные изображения. Исследователи обучили её на массиве данных, включающем более 250 часов видеозаписей «говорящей головы»: выступлений, фрагментов фильмов, телешоу и вокальных выступлений. В отличие от предыдущих методов, предполагающих создание трёхмерной модели или механизмов имитации человеческой мимики, EMO предполагает прямое преобразование звука в видеоряд. Это позволяет системе передавать мельчайшие движения и связанные с естественной речью особенности личности.

Авторы проекта утверждают, что EMO превосходит существующие методы по показателям качества видео, сохранения идентичности и выразительности. Исследователи опросили фокус-группу, и та показала, что созданные EMO видеоролики более естественны и эмоциональны, чем произведения других систем. Система создаёт анимацию не только на основе речи, но и с использованием звукового ряда с вокалом — она учитывает форму рта человека на оригинальном изображении, добавляет соответствующую мимику и синхронизирует движения с вокальной партией. Единственной связанной с EMO проблемой является вероятность злоупотребления этой технологией. Исследователи сообщают, что планируют изучить методы выявления созданных ИИ видеороликов.

VR-гарнитуры Meta✴ Quest смогут воспроизводить пространственное видео с iPhone

Гарнитура смешанной реальности Apple Vision Pro может воспроизводить так называемые пространственные видео, т.е. ролики, которые фактически записаны в 3D. Смартфоны iPhone 15 Pro и iPhone 15 Pro Max могут снимать пространственное видео, но Vision Pro является единственным устройством, способным воспроизводить их во всей красе. Похоже, что в скором времени это изменится и функцию воспроизведения пространственных видео получат VR-гарнитуры Quest компании Meta Platforms.

 Источник изображения: Apple

Источник изображения: Apple

По данным сетевых источников, в коде приложения Meta Quest для iPhone обнаружились упоминания функции, предполагающей некую форму воспроизведения пространственных видео. На данный момент в приложении выявлено четыре строки кода с упоминанием этой функции, в том числе связанных с возможностью активации пространственного видео в настройках камеры и загрузкой контента такого типа.

Источник отмечает, что поддержка пространственного видео уже доступна в гарнитурах Quest, хотя официально об этом не было объявлено. Вероятно, рано или поздно это изменится и Meta попытается извлечь выгоду по мере роста популярности контента такого типа. Гарнитура смешанной реальности Vision Pro поступит в продажу 2 февраля и, скорее всего, это будет сопровождаться значительным ростом интереса со стороны пользователей к созданию пространственных видео.

Google представила мощную нейросеть Lumiere для генерации реалистичных видео

Google представила Lumiere«модель пространственно-временной диффузии для реалистичной генерации видео», основанную на искусственном интеллекте. Как показала практика, это, возможно, самый мощный на сегодняшний день ИИ-генератор видео, создающий динамические изображения по текстовому описанию.

 Источник изображения: lumiere-video.github.io

Источник изображения: lumiere-video.github.io

Важнейшим отличием Google Lumiere от существующих аналогов является уникальная архитектура модели — видео по всей его продолжительности генерируется за один проход. Другие модели работают по иному принципу: они генерируют несколько ключевых кадров, а затем производят интерполяцию по времени, что затрудняет согласованность генерируемого ролика. Lumiere работает в нескольких режимах, например, производит преобразование текста в видео, конвертирует статические изображения в динамические, создаёт видеоролики в заданном стиле на основе образца, позволяет редактировать существующее видео по письменным подсказкам, анимирует определённые области статического изображения или редактирует видео фрагментарно — например, может изменить предмет гардероба на человеке.

«Мы обучаем нашу модель T2V [преобразования текста в видео] на наборе данных, включающем 30 млн видеороликов с текстовыми описаниями. Видео имеют длину 80 кадров с частотой 16 кадров в секунду. Базовая модель обучена на разрешении 128 × 128 пикселей», — пояснили в Google. На выходе получаются 5-секундные ролики с разрешением 1024 × 1024 пикселей.

Google Lumiere — конечно, не первый ИИ-генератор видео. Сама Google ранее демонстрировала модель Imagen Video, которая генерировала ролики разрешением 1280 × 768 точек с частотой 24 кадра в секунду, но её творения были намного более скромными. Меньшим реализмом отличались результаты таких проектов как Meta Make-A-Video, Runway Gen2 и Stable Video Diffusion. В Google понимают угрозу, которую могут представлять подобные проекты: «Основная наша цель в этой работе — дать начинающим пользователям возможность генерировать визуальный контент гибко и творчески. Однако существует риск неправомерного [создания] подделок или вредоносного контента при помощи нашей технологии, и мы считаем, что крайне важно разрабатывать и применять инструменты выявления случаев предвзятости и злонамеренного использования, чтобы обеспечить безопасную и добросовестную работу [модели]».

Apple показала, как гнёт стекло и фрезеруют алюминий для производства гарнитуры Vision Pro

Накануне Apple открыла приём предварительных заказов на гарнитуру смешанной реальности Vision Pro. Чтобы отметить это событие, компания опубликовала рекламное видео, на котором показала процесс производства компонентов устройства и их сборки воедино.

 Источник изображения: youtube.com/@Apple

Источник изображения: youtube.com/@Apple

Короткое видео демонстрирует, как производятся некоторые компоненты Apple Vision Pro, и как осуществляется их дальнейшая сборка. Базовая версия устройства имеет ценник $3499 — она комплектуется встроенным накопителем на 256 Гбайт. За версию с 512 Гбайт памяти придётся отдать $3699, а топовый вариант с накопителем ёмкостью 1 Тбайт оценивается в $3899.

Высокая стоимость Apple Vision Pro, похоже, не станет препятствием к популярности устройства — многие поклонники марки уже изъявили готовность приобрести «пространственный компьютер». Первоначально Apple сообщала, что отгрузки устройства стартуют в начале февраля, но с открытием предзаказов даты начали постепенно сдвигаться. Уже через два часа в датах поставок Vision Pro начал фигурировать март, а некоторые клиенты сообщили даже об апрельских сроках.

AVerMedia выпустила карты видеозахвата Live Streamer Ultra HD и Live Gamer 4K 2.1 — последняя получила HDMI 2.1

Компания AVerMedia представила карты захвата видеопотока Live Gamer 4K 2.1 и Live Streamer Ultra HD. Обе новинки выполнены в формате карт расширения PCIe и обе поддерживают работу с видео в разрешении 4K (3840 × 2160 пикселей). А первая из новинок, к тому же, выделяется поддержкой интерфейса HDMI 2.1.

 Live Gamer 4K 2.1. Источник изображений: AVerMedia

Live Gamer 4K 2.1. Источник изображений: AVerMedia

Карта AVerMedia Live Streamer Ultra HD представляет собой устройство начального уровня, которое обеспечивает захват видео в разрешении 4K со скоростью до 30 кадров в секунду, а также способно передавать поток в 4K со скоростью 60 кадров в секунду. Для подключения она использует всего одну линию PCIe 3.0 или более нового интерфейса. Карта обладает входным и выходным портами HDMI 2.0.

Новинка также поддерживает режим захвата видео в разрешении 1080p (1920 × 1080 пикселей) со скоростью 120 кадров в секунду, если стример хочет организовать трансляцию с высокой частотой кадров. Ключевой же особенностью AVerMedia Live Streamer Ultra HD является поддержка источников входного сигнала с VRR (переменной частотой обновления).

В свою очередь модель Live Gamer 4K 2.1 является более продвинутой картой захвата видео. Она может вести запись в разрешении 4K с частотой до 60 кадров в секунду, а также поддерживает сквозную потоковую передачу 4K с частотой обновления 144 Гц. Для неё также заявляется поддержка VRR и HDR. Новинка оснащена пластиковым кожухом с RGB-подсветкой. Для подключения к ПК здесь применяется интерфейс PCIe 3.0 x4. Плата оснащена парой портов HDMI 2.1.

Оба устройства от AVerMedia уже появились в продаже. Карту захвата Live Streamer Ultra HD с поддержкой режимов 4K@30 или 1080p@120 производитель оценил в $179,99. Старшая модель Live Gamer 4K 2.1 с поддержкой HDMI 2.1 оценивается в $269,99.

«М.Видео-Эльдорадо»: в пятёрку самых продаваемых игр за 2023 год попала только одна игра 2023 года

Торговая группа «М.Видео-Эльдорадо» составила рейтинг игр, коробочные версии которых оказались наиболее популярны в российской рознице по итогам 2023 года. В лидерах — вновь хит прошлых лет.

 Источник изображения: Steam (Evey)

Источник изображения: Steam (Evey)

Как стало известно, самой продаваемой игрой российской розницы в 2023 году стал нестареющий ролевой боевик Cyberpunk 2077 от CD Projekt RED — он же возглавил рейтинг и по итогам 2022-го.

Кроме того, в пятёрку самых популярных релизов также попали Grand Theft Auto V, полное издание Mortal Kombat 11, Hogwarts Legacy и God of War Ragnarok. То есть в топ-5 по результатам 2023 года только одна игра 2023 года.

По словам менеджера игрового направления «М.Видео-Эльдорадо» Сергея Епишина, самыми популярными новинками в 2023 году стали Hogwarts Legacy, Atomic Heart, Diablo IV, Star Wars Jedi: Survivor, EA Sports FC 24 и Mortal Kombat 1.

 Hogwarts Legacy (источник изображения: Ayghan в X)

Hogwarts Legacy (источник изображения: Ayghan в X)

Половина приобретённых за 2023 год игр пришлась на PS4 (65 % по итогам 2022-го). На втором месте расположилась PS5 (её доля увеличилась на 25 %), а третье за собой удержала Nintendo Switch.

Как отмечают в «М.Видео-Эльдорадо», наиболее активны потребители были в четвёртом квартале. За период с октября по конец декабря было продано более 30 % от общего объёма за год.

Распределение самых продаваемых игр 2023 года по платформам:

PlayStation 4

  1. Cyberpunk 2077;
  2. полное издание Mortal Kombat 11;
  3. Hogwarts Legacy;
  4. Red Dead Redemption 2;
  5. Diablo IV.

PlayStation 5

  1. God of War Ragnarok;
  2. Grand Theft Auto V;
  3. Hogwarts Legacy;
  4. полное издание Mortal Kombat 11;
  5. Marvel’s Spider-Man: Miles Morales.

Nintendo Switch

  1. The Legend of Zelda: Tears of the Kingdom;
  2. Minecraft;
  3. It Takes Two;
  4. Minecraft Legends;
  5. Bayonetta Origins: Cereza and the Lost Demon.

Xbox Series X и S

  1. Grand Theft Auto V;
  2. Atomic Heart;
  3. Hogwarts Legacy;
  4. Back 4 Blood;
  5. Gears Tactics.

Xbox One

  1. Red Dead Redemption 2;
  2. The Evil Within;
  3. Forza Horizon 3;
  4. The Sims 4;
  5. Battlefield V.

ИИ-чат-бот Google Bard научилcя смотреть видео на YouTube вместо пользователя и пересказывать их

В последнее время компания Google активно работает над улучшением своего ИИ-чат-бота Bard. Последнее обновление Bard включает функцию анализа YouTube-видео, которая позволяет пользователям извлекать из видео конкретную информацию, такую как рецепты и ключевые моменты, без необходимости просмотра самого видео. Это нововведение может значительно облегчить жизнь пользователям, но в то же время вызывает беспокойство о влиянии генеративного ИИ на творчество и доходы авторов контента.

 Источник изображения: Google

Источник изображения: Google

В качестве примера использования новой функции было протестировано видео с рецептом коктейля «Espresso Martini» с канала America’s Test Kitchen. Bard успешно собрал важные моменты видео, включая точные ингредиенты коктейля и инструкции его приготовления. Однако были замечены и некоторые неточности, такие как предложение Bard взбалтывать напиток на протяжении 30 секунд, чего в оригинальном видео не было.

Такое использование Bard поднимает вопросы о воздействии генеративного ИИ на индустрию контента. Видео на YouTube часто являются источником дохода авторов за счёт рекламы и просмотра сопутствующих роликов. Получение информации через ИИ-чат-бота позволяет обходить этот этап, что потенциально уменьшает доходы создателей контента.

 Bard способен кратко изложить основные моменты видеоролика и точно ответить на вопрос об ингредиентах (источник изображения: The Verge)

Bard способен кратко изложить основные моменты видеоролика и точно ответить на вопрос об ингредиентах (источник изображения: The Verge)

На данный момент эта функция доступна только в рамках экспериментальной программы Labs компании Google и требует определённых усилий для получения желаемой информации. Например, при запросе на получение «полного рецепта» Bard не смог предоставить ответ, однако запрос на «пошаговые инструкции» привёл к желаемому результату.

Такие особенности использования ИИ пока что не представляют угрозы для стратегии контент-маркетинга на YouTube, но можно предположить, что в будущем интеграция такого инструмента непосредственно в YouTube приведёт к новым вызовам для авторов. Важно, чтобы компании, работающие в области генеративного ИИ, включая Google, нашли способы сбалансировать интересы всех участников — от разработчиков до авторов контента.

«Сбер» представил нейросеть Kandinsky Video — она генерирует 8-секундные видео по текстовому описанию

«Сбер» представил нейросеть Kandinsky Video, способную создавать небольшие ролики по текстовому описанию. Алгоритм генерирует видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду. Новинка была презентована в рамках конференции AI Journey первым заместителем председателя правления «Сбербанка» Александром Ведяхиным.

 Источник изображения: sberbank.com

Источник изображения: sberbank.com

Архитектура Kandinsky Video включает в себя два основных блока. Первый блок отвечает за генерацию ключевых кадров, используемых для создания структуры сюжета видео, а второй — генерирует интерполяционные кадры, за счёт чего достигается плавность движения в финальном ролике. Оба блока построены на базе модели синтеза изображений по текстовым описаниям Kandinsky 3.0.

В конечном счёте алгоритм создаёт видео с движением как объекта, так и фона. Это отличает сгенерированные нейросетью видео от анимационных роликов, в которых динамика достигается за счёт моделирования полёта камеры относительно статичной сцены. В настоящее время Kandinsky Video может создавать видео с разрешением 512 × 512 пикселей и разным соотношением сторон. Для обучения алгоритма использовался датасет из более чем 300 тыс. пар «текст-видео». Сам же процесс генерации ролика занимает до 3 минут.

Отмечается, что ранее некоторые пользователи нейросети Kandinsky 2.2 в тестовом режиме получили доступ к функции создания анимационных роликов. Всего одного запроса достаточно для генерации видео продолжительностью до 4 секунд с выбранными эффектами анимации, частотой 24 кадра в секунду и разрешением 640 × 640 пикселей. Пользователи новой версии Kandinsky 3.0 также могут генерировать ролики по текстовому описанию в режиме анимации.

Apple iPhone 15 Pro научился снимать 3D-видео для гарнитуры Vision Pro — первые ролики впечатлили журналистов

С выпуском обновления Apple iOS 17.2, которое пока находится в стадии бета-тестирования и, как ожидается, выйдет в декабре, iPhone 15 Pro и iPhone 15 Pro Max получат возможность снимать пространственное видео с данными о глубине, а просматривать его можно будет на гарнитуре смешанной реальности Vision Pro. Некоторым журналистам посчастливилось опробовать новинку на практике.

 Источник изображений: apple.com

Источник изображений: apple.com

Функция съёмки пространственного видео активируется в настройках камеры: когда опция включена, на экране появляется дополнительная кнопка для начала записи в этом формате — она осуществляется при помощи основной и сверхширокоугольной камер одновременно. Видео сохраняется в разрешении 1080p с частотой 30 кадров в секунду. Apple уточняет, что для наилучшего результата телефон должен находиться в альбомной (горизонтальной) ориентации и быть зафиксированным. У владельцев Vision Pro эта опция будет включена по умолчанию. При воспроизведении на iPhone пространственные ролики показываются как обычное 2D-видео без какого-либо дополнительного эффекта глубины.

Apple Vision Pro поступит в продажу в США в начале 2024 года, но производитель предложил некоторым журналистам уже сейчас записать свои собственные ролики на iPhone 15 Pro и посмотреть их на гарнитуре. Фото устройства компания публиковать пока не позволяет, поэтому доступны лишь письменные отзывы.

«На демонстрации я сняла суши-повара, который держал кусок суши. Когда я смотрела это на Vision Pro, суши и палочки действительно выглядели трёхмерными. Они были явно на переднем плане, зависая ближе ко мне, чем остальные изображения. Конечно, при записи освещение было идеальным — ещё посмотрим, как она поведёт себя в несовершенных условиях. Apple показала мне несколько других пространственных видео. На одном отец рассказывал детям историю на заднем сиденье фургона. Это было так реалистично и уютно, что мне почти стало жутко. С чего я подглядываю за этой незнакомой семьёй? В этом, очевидно, и заключается большая привлекательность: пространственные видео создают камерность, которой нет у плоских фотографий и видео», — поделилась впечатлениями Джоанна Штерн (Joanna Stern) из Wall Street Journal.

«Как Apple, вероятно, и задумывала, снимать пространственное видео так же просто и интуитивно, как в любом другом режиме на iPhone 15 Pro или iPhone 15 Pro Max. Поворачиваешь телефон для разблокировки режима съёмки, который обозначается значком гарнитуры и видишь, что во время записи появляется уровень. Уровень горизонта важен, потому что сильно дрожащее видео будет ещё сильнее диссонировать при воспроизведении на Vision Pro. В моем случае я снял, как профессиональный шеф-повар суши готовит несколько обычных роллов и рисовых шариков, и как повар держит готовый продукт. Я постепенно наезжал, снимая ролл, как он висит в воздухе на палочках примерно с полутора футов (45 см). iPhone отлично справился с переключением фокуса, пока я двигался вокруг куска суши с поваром на заднем плане. Можно щёлкнуть вручную, чтобы сменить фокус, если хочешь», — рассказал о своём опыте Джейкоб Крол (Jacob Krol) из TheStreet.

«Видео смотрится великолепно, а 3D невероятно реалистично. Их легко записывать, и можно сохранять ролики, которые будут воспроизводиться в 2D в обычном формате видео. Но вообще эта функция предназначена для продукта из 2024 года, который, при цене $3500, можно с уверенностью сказать, большинство людей в ближайшее время покупать не станет. Но опыт всё-таки впечатляет», — написал Скотт Штайн (Scott Stein) из CNET.

Он также добавил, что в следующем году поддержку пространственного видео получит фирменный редактор Apple Final Cut Pro. Поддержка 3D-видео появилась во второй бета-версии iOS 17.2, которая 9 ноября вышла для разработчиков и 10 ноября — для участников программы публичного тестирования.

Nokia подала в суд на Amazon и HP за незаконное использование технологий потокового видео

Финский производитель телекоммуникационного оборудования Nokia подал в суд на компании Amazon и HP за незаконное использование ряда её патентов, связанных с потоковой передачей видео. Телекоммуникационный гигант направил иск в федеральный суд штата Делавэр, а также аналогичные иски в Германию, Индию, Великобританию и Европейский объединенный патентный суд.

Компания Nokia уточняет, что платформы Amazon Prime и Twitch используют запатентованную ею технологию сжатия видео, доставки контента и рекомендации контента среди прочего. Кроме того, было установлено, что устройства HP нарушают запатентованную Nokia технологию потоковой передачи видео.

Nokia добивается отчислений за использование этих ключевых изобретений, которые компания сможет реинвестировать в разработку мультимедийных технологий следующего поколения. Между тем, в Nokia подчёркивают, что компания предпочитает достигать мирового соглашения с контрагентами, которые полагаются на её технологии, и остаётся открытой для конструктивных переговоров.

Nokia утверждает, что предложила Amazon и HP справедливые условия для ведения переговоров о лицензиях на её запатентованные технологии, но обе компании отклонили эти предложения. Nokia является ведущим игроком в области исследований и разработок с объемом инвестиций более 140 миллиардов евро за последние 20 лет. В её арсенале более чем 20 000 семейств патентов в разных странах.

В YouTube появятся новые функции: стабильная громкость, ускорение просмотра и распознавание мелодий

Google объявила о значительном обновлении своей платформы потокового видео YouTube, получившей «три десятка новых функций и обновлений дизайна».

 Источник изображения: blog.youtube

Источник изображения: blog.youtube

В числе новых функций — «Стабильная громкость», которая обеспечивает лучшее управление звуком на мобильных устройствах. Эта опция автоматически активируется в настройках, чтобы уменьшить раздражающую разницу в громкости при воспроизведении разных роликов. При желании компенсацию громкости можно отключить вручную.

Теперь также можно перемотать видео, установив двойную скорость воспроизведения (в полноэкранном или портретном режиме) длительным нажатием в любом месте плеера (указателем мыши или пальцем, в зависимости от устройства). При достижении нужного участка видеоролика достаточно просто прекратить нажим, чтобы продолжить воспроизведение с обычной скоростью. Эта функция будет доступна в веб-браузере, на планшетах и мобильных устройствах.

Найти нужный фрагмент видео будет проще благодаря опции увеличенного изображения при предварительном просмотре. Чтобы избежать прерывания воспроизведения видео из-за случайного касания экрана видеосервис добавил дополнительную блокировку экрана на телефонах и планшетах.

Google объединила вкладку «Библиотека/Медиатека» (Library/Media Library) и страницу учётной записи в новый раздел под названием «Вы» (You). Здесь можно найти все ранее просмотренные видео, плейлисты, загрузки и покупки, а также настройки своей учётной записи и информацию о канале. Новая вкладка «Вы» должна быть запущена в ближайшее время. Она будет расположена в веб-браузере, мобильных устройствах и планшетах на прежнем месте вкладки «Библиотека/Медиа-библиотека».

YouTube также получит функцию, напоминающую Shazam, для распознавания воспроизводимых песен. Пользователь может воспроизвести, спеть песню или напеть мелодию, и YouTube должен распознать, что это за песня, с помощью искусственного интеллекта. Google хочет представить эту функцию в ближайшие несколько недель, первоначально на устройствах Android.


window-new
Soft
Hard
Тренды 🔥
На смену Family Sharing в Steam придут «Семейные группы» с общей библиотекой, контролем за детьми и привязкой к региону 33 мин.
Nvidia запустила Quantum Cloud — облачный симулятор квантового компьютера для исследований 53 мин.
Telegram выгодно для себя привлёк $330 млн через продажу облигаций 56 мин.
Более 500 российских программистов приняли участие в совместном хакатоне Хоум Банка и «Сколково» 2 ч.
Всё своё ношу с собой: Nvidia представила контейнеры NIM для быстрого развёртывания оптимизированных ИИ-моделей 9 ч.
Nvidia AI Enterprise 5.0 предложит ИИ-микросервисы, которые ускорят развёртывание ИИ 10 ч.
NVIDIA запустила облачную платформу Quantum Cloud для квантово-классического моделирования 10 ч.
NVIDIA и Siemens внедрят генеративный ИИ в промышленное проектирование и производство 10 ч.
SAP и NVIDIA ускорят внедрение генеративного ИИ в корпоративные приложения 11 ч.
Microsoft проведёт в мае презентацию, которая положит начало году ИИ-компьютеров 12 ч.
«Мерлион» выпустит SSD, блоки питания и другие комплектующие под собственным брендом 7 мин.
Смарт-часы Xiaomi Watch S3 и Redmi Watch 4 для любителей активного образа жизни и ТВ-приставка Mi Box S 2 Gen для развлечений 2 ч.
SK hynix запустила массовое производство стеков памяти HBM3E — первой её получит Nvidia 2 ч.
Смартфоны Redmi Note 13 и 13 Pro+ 5G, планшет Xiaomi Pad 6 расширят возможности для работы и развлечений 3 ч.
Зарубежные поставщики Intel и TSMC не спешат строить свои предприятия в Аризоне 4 ч.
Nvidia и Synopsys внедрили искусственный интеллект в сфере литографической подготовки производства чипов 4 ч.
NVIDIA представила облачную платформу для исследований в сфере 6G 11 ч.
Ускорители NVIDIA H100 лягут в основу японского суперкомпьютера ABCI-Q для квантовых вычислений 11 ч.
NVIDIA показала цифрового двойника нового дата-центра с ИИ-ускорителями Blackwell 11 ч.
NVIDIA B200, GB200 и GB200 NVL72 — новые ускорители на базе архитектуры Blackwell 11 ч.