Сегодня 05 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ии-сервис
Быстрый переход

Alibaba представила ИИ-модель Qwen VLo, которая умеет редактировать картинки

Alibaba представила ИИ нового поколения, который существенно упростит пользователям создание и редактирование изображений на основе текстов и визуальных материалов. Модель, получившая название Qwen VLo, станет частью серии ИИ-сервисов под брендом Qwen и позволит не только генерировать изображения по текстовым запросам, но и модифицировать уже существующие.

 Источник изображения: Copilot

Источник изображения: Copilot

Как сообщает Bloomberg, новая модель не только анализирует данные, но и способна на их основе генерировать высокачественные изображения. Например, пользователь может ввести текстовой запрос, а после генерации попросить добавить какие-либо детали, например, шляпу для кота. Также можно загрузить готовое изображение и «дорисовать» его.

Одной из ключевых особенностей Qwen VLo является технология прогрессивной генерации, при которой пользователь может наблюдать за процессом создания изображения шаг за шагом. Например, можно отправить запрос «Создай картинку милого кота», и система начнёт формировать изображение прямо на глазах.

В своём блоге компания также отметила, что новая версия модели не просто «воспринимает окружающий мир, но и способна создавать высококачественные реконструкции на основе этого восприятия». Это соотносится с тем, что ранее генеральный директор компании Эдди Ву (Eddie Wu) заявлял, что основной целью Alibaba на текущий момент является разработка сильного искусственного интеллекта (AGI), который будет обладать уровнем развития человека.

Модель Qwen VLo позиционируется как конкурентный ответ на другие решения рынка, включая продукты OpenAI. Однако Alibaba также сталкивается с агрессивной конкуренцией внутри Китая, например, со стороны DeepSeek, которая произвела в индустрии фурор, заявив о создании мощной модели всего за несколько миллионов долларов. В ответ компания Alibaba ещё активнее стала добавлять новые функции для обработки текстов, изображений, аудио и видео, также оптимизируя модель и для работы на смартфонах.

Runway готовит платформу для создания игр с помощью ИИ

ИИ-стартап Runway, чья оценочная стоимость составляет $3 млрд, намерен расширить горизонты своего влияния. После крупного успеха нейросети в киноиндустрии, компания планирует запустить платформу для генерации видеоигр.

 Источник изображения: Runway

Источник изображения: Runway

По словам генерального директора компании Кристобаля Валенсуэлы (Cristóbal Valenzuela), первые пользователи смогут протестировать новый продукт уже на следующей неделе. Пока это просто минималистичный интерфейс, позволяющий взаимодействовать с моделью в текстовом чате и создавать изображения, но в дальнейшем появится возможность генерировать полноценные игры, сообщает The Verge.

Runway в настоящий момент активно ведёт переговоры с крупными игровыми студиями о внедрении своих технологий в производственные процессы и о доступе к их базам данных для обучения моделей. По мнению Валенсуэлы, игровая индустрия сейчас находится примерно в той же точке, в которой находилась киноиндустрия пару лет назад, когда впервые столкнулась с применением ИИ в процессе создания контента. Тогда тоже наблюдалось немалое сопротивление, но со временем ИИ-технологии начали активно внедряться в работу. Глава Runway уверен, что сейчас процесс принятия ИИ в играх будет происходить быстрее.

Компания уже имеет опыт сотрудничества с крупнейшими игроками развлекательного рынка. Например, её технологии применялись при производстве сериала Amazon «Дом Дэвида», также продолжается сотрудничество почти со всеми голливудскими студиями и большинством компаний из списка Fortune 100. Валенсуэла считает, что если Runway может помочь студии ускорить производство фильма на 40 процентов, то аналогичный эффект возможен и в разработке игр.

«Бездонная яма плагиата»: Disney и Universal подали в суд на Midjourney из-за ИИ

Кинокомпании Disney и Universal подали иск против Midjourney, обвинив сервис в создании копий их персонажей с помощью искусственного интеллекта (ИИ). Иск, поданный в федеральный суд Центрального округа Калифорнии, касается генерации изображений таких персонажей, как Шрек, Дарт Вейдер, Базз Лайтер и других защищённых авторским правом известных героев.

 Источник изображений: theverge.com

Источник изображений: theverge.com

В заявлении говорится, что Midjourney действует как «виртуальный торговый автомат», производя бесконечные незаконные копии их работ. По мнению истцов, сервис сознательно использует популярных персонажей для продвижения своих инструментов, не вкладывая средств в их создание. В качестве примеров приведены изображения инопланетянина Йоды — одного из главных героев «Звёздных войн», Человека-паука, Эльзы из «Холодного сердца» и персонажей из «Миньонов».

Disney и Universal утверждают, что Midjourney игнорирует их требования прекратить нарушение авторских прав, в отличие от других сервисов ИИ, которые внедрили защитные механизмы. Особую обеспокоенность вызывает готовящийся к выпуску видеогенератор Midjourney, который, по мнению студий, уже сейчас может нарушать их права в связи с обучением ИИ на защищённом авторском контенте. Компании потребовали суда присяжных.

Как отмечает издание The Verge, это первый крупный иск Голливуда против генеративного ИИ, однако подобные судебные разбирательства становятся все более частыми. Ранее с исками к OpenAI, создателю ChatGPT, обращались The New York Times, группа авторов во главе с Джорджем Мартином (George R.R. Martin), а также издатели других газет. На компанию Anthropic, разработавшую чат-бот Claude, подали иски компании Universal Music и Reddit.

Google научила Gemini 2.5 понимать и передавать эмоции в диалогах

На конференции Google I/O 2025 компания анонсировала новую версию своей мультимодальной модели Gemini 2.5, которая теперь поддерживает генерацию аудио и диалогов в реальном времени. Эти возможности доступны в предварительной версии для разработчиков через платформы Google AI Studio и Vertex AI.

 Источник изображения: Google

Источник изображения: Google

Gemini 2.5 Flash Preview обеспечивает реалистичное голосовое взаимодействие с ИИ, включая распознавание эмоциональной окраски речи, адаптацию интонации и акцента, а также возможность переключения между более чем 24 языками. Модель может игнорировать фоновые шумы и использовать внешние инструменты, такие как «Поиск», для получения актуальной информации во время диалога.

Дополнительно, Gemini 2.5 предлагает расширенные функции синтеза речи (TTS), позволяя управлять стилем, темпом и эмоциональной выразительностью озвучивания. Поддерживается генерация диалогов с несколькими голосами, что делает модель подходящей для создания подкастов, аудиокниг и других мультимедийных продуктов.

Для обеспечения прозрачности, все сгенерированные моделью аудио маркируются с помощью технологии SynthID, что позволяет идентифицировать контент, как сгенерированный ИИ. Разработчики могут опробовать новые функции через вкладки Stream и Generate Media в Google AI Studio.

Gemini 2.5 демонстрирует значительный шаг вперёд в области мультимодальных ИИ-систем, объединяя модальности текстов, изображений, аудио и видео в единую платформу. Новые функции открывают широкие перспективы для создания интерактивных приложений, виртуальных ассистентов и инноваций в сфере образования.

Character.AI запустила генерацию видео, а персонажи теперь могут говорить

Платформа Character.AI с функциями чат-бота для диалогов с ИИ-персонажами представила новые мультимедийные функции. Среди них — генератор видео AvatarFX, а также инструменты Scenes и Streams, позволяющие создавать ролики с ИИ-персонажами и делиться ими в социальной ленте.

 Источник изображения: Character.AI

Источник изображения: Character.AI

Ранее сервис работал только в текстовом формате, но теперь, по словам представителей компании, развивается в сторону большей интерактивности. Сейчас пользователи могут создавать до пяти видео в день с помощью AvatarFX. Для этого нужно загрузить изображение, выбрать голос и написать реплики для персонажа. Также есть возможность использовать аудиофайл для настройки голоса, но эта функция, как отмечает TechCrunch, пока работает нестабильно.

Видео можно превращать в сцены (Scenes), представляющими из себя мини-истории с заранее заданными сюжетами от других пользователей. Пока эта опция доступна только в мобильном приложении, но скоро появится и в веб-версии. Функция Streams, позволяющая создавать динамические диалоги между двумя персонажами, выйдет на всех платформах на этой неделе. Готовые сцены можно будет публиковать в новой ленте сообщества.

Однако у платформы есть проблемы с безопасностью из-за риска злоупотребления столь широкими возможностями. Ранее родители подавали в суд на Character.AI, утверждая, что чат-боты пытались склонить их детей к самоповреждениям и суициду. В одном случае 14-летний подросток покончил с собой после продолжительного общения с ИИ-персонажем.

С расширением мультимедийных функций также могут возрастать риски злоупотреблений, например, использования фотографий реальных людей. Но компания заявляет, что блокирует загрузку изображений реальных людей, включая знаменитостей, и намеренно искажает их изображения (рисунок ниже), чтобы избежать создания deep-подделок. Однако иллюстрации с известными персонажами система не запрещает, что, возможно, оставляет лазейки для злоумышленников.

 Источник изображения: Character.AI

Источник изображения: Character.AI

Каждое видео помечается водяным знаком, но это не гарантирует полной защиты. Например, при попытке создать дипфейк на основе рисунка Илона Маска (Elon Musk) результат выглядит неестественно, но теоретически такие ролики всё равно можно использовать для обмана.

 Источник изображения: Amanda Silberling / bsky.app

Источник изображения: Amanda Silberling / bsky.app

В Character.AI подчёркивают, что «стремятся балансировать между творческой свободой и безопасностью». По словам компании, цель платформы в том, чтобы предоставить пользователям интересные инструменты для самовыражения, минимизируя потенциальные угрозы. Однако есть те, кто сомневается, что текущих мер недостаточно для предотвращения новых скандалов.

Stability AI выпустила ИИ-генератор музыки, который быстро работает даже на смартфоне

Stability AI, разработчик популярной нейросети Stable Diffusion, представила музыкальную ИИ-модель Stable Audio Open Small, которая генерирует аудио в стереозвучании и способна работать на смартфонах без подключения к интернету. Модель создана совместно с производителем чипов Arm, чьи процессоры используются в большинстве мобильных устройств, и способна быстро генерировать аудио в высоком качестве даже на устройствах с ограниченными вычислительными ресурсами.

 Источник изображения: AI

Источник изображения: AI

В отличие от конкурентов, таких как Suno и Udio, которым требуется облачная обработка, Stable Audio Open Small работает локально. При этом, как отмечает TechCrunch, обучение модели проводилось только на данных из бесплатных аудиобиблиотек Free Music Archive и Freesound, что снижает риски нарушения авторских прав и выгодно отличает её от некоторых других ИИ-сервисов, использующих защищённый контент.

Модель содержит 341 миллион параметров и оптимизирована для процессоров Arm. Она предназначена для быстрого создания коротких аудиосэмплов и звуковых эффектов, например, ударных или инструментальных партий. По заявлению Stability AI, на смартфоне ИИ может сгенерировать 11-секундное аудио менее чем за восемь секунд.

Одновременно у Stable Audio Open Small есть некоторые ограничения. Например, она понимает текстовые запросы только на английском языке, не умеет создавать реалистичный вокал или сложные музыкальные композиции. Кроме того, компания признаёт, что из-за того, что модель обучалась на западно-ориентированных данных, она лучше справляется со стилями, присущими западной музыке.

Ещё одна сложность заключается в условиях использования. Для исследователей, любителей и малого бизнеса ИИ-модель доступна бесплатно, но если годовой доход компании превышает $1 млн, потребуется покупка коммерческой лицензии. И хотя для инди-разработчиков такие условия выгодны, для крупных проектов это может стать определённой сложностью.

Напомним, Stability AI, известная по своей модели глубокого обучения Stable Diffusion, генерирующей изображения по текстовым описаниям, в последние месяцы пытается восстановить репутацию после финансовых проблем при бывшем генеральном директоре Эмаде Мостаке (Emad Mostaque). Компания привлекла инвестиции, назначила нового главу и добавила в совет директоров режиссёра Джеймса Кэмерона (James Cameron). Параллельно она продолжает выпускать новые генеративные модели, включая новые инструменты для создания изображений.

Новая статья: Лучшие ИИ-сервисы по версии 3DNews на начало 2025 г., часть 3: конструкторы приложений, секретари, менеджеры проектов, дата-дирижёры

Данные берутся из публикации Лучшие ИИ-сервисы по версии 3DNews на начало 2025 г., часть 3: конструкторы приложений, секретари, менеджеры проектов, дата-дирижёры

Amazon собралась бросить вызов OpenAI, Google и Anthropic, и готовит собственную рассуждающую ИИ-модель

Amazon разрабатывает новую модель искусственного интеллекта (ИИ) с продвинутыми возможностями рассуждения. Модель разрабатывается в рамках бренда Nova и может составить серьёзную конкуренцию основным игрокам рынка — OpenAI, Anthropic и Gemini.

 Источник изображения: Christian Wiediger / Unsplash

Источник изображения: Christian Wiediger / Unsplash

Как сообщает Business Insider, ссылаясь на источник, знакомый с проектом, Nova будет использовать гибридный подход к рассуждению, сочетая в одной системе быстрые ответы и более сложное, многозадачное мышление. Одной из ключевых задач Amazon является снижение стоимости работы модели по сравнению с конкурентами, такими как OpenAI o1, Anthropic Claude 3.7 Sonnet и Google Gemini 2.0 Flash Thinking. Ранее компания заявляла, что её текущие, не рассуждающие модели Nova, на 75 % дешевле сторонних предложений, доступных через платформу Bedrock AI.

За разработку Nova отвечает команда AGI под руководством главного научного сотрудника Рохита Прадаса (Rohit Prasad), а чтобы вывести модель в топ-5 по производительности, Amazon тестирует её на внешних бенчмарках, оценивающих навыки программирования и математики, включая SWE, Berkeley Function Calling Leaderboard и AIME.

Стоит сказать, что ИИ-модели с функцией рассуждения постепенно становятся новым этапом развития искусственного интеллекта. И хоть они работают медленнее, способны решать более сложные задачи, используя поиск решений и метод цепочки мыслей. Подобные технологии уже представили Google, OpenAI и Anthropic. Также китайская компания DeepSeek привлекла к себе внимание благодаря тому, что нашла ещё более эффективный подход.

Ожидается, что Nova усилит конкуренцию Amazon с продуктами Anthropic, недавно выпустившей модель Claude 3.7 Sonnet, которая также использует гибридный подход. Представители Amazon пока отказались от каких-либо комментариев, однако предположительно рассуждающая ИИ-модель может быть запущена уже к июню.

Новая статья: Лучшие ИИ-сервисы по версии 3DNews на начало 2025 г., часть 2: поболтать, задизайнить, сгенерировать текст и озвучить его

Данные берутся из публикации Лучшие ИИ-сервисы по версии 3DNews на начало 2025 г., часть 2: поболтать, задизайнить, сгенерировать текст и озвучить его

Новая статья: Лучшие ИИ-сервисы по версии 3DNews. Часть 1: ИИ-собеседники, генераторы картинок и видео, поисковики

Данные берутся из публикации Лучшие ИИ-сервисы по версии 3DNews. Часть 1: ИИ-собеседники, генераторы картинок и видео, поисковики


window-new
Soft
Hard
Тренды 🔥