Сегодня 16 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → генератор изображений
Быстрый переход

Alibaba представила ИИ-генератор изображений Qwen-Image с высокой степенью грамотности

Alibaba представила модель искусственного интеллекта Qwen-Image 20B MMDiT, предназначенную для работы с изображениями — в ней разработчик значительно улучшил механизмы прорисовки сложных текстов и реализовал возможности точного редактирования изображений.

 Источник изображения: huggingface.co/Qwen

Источник изображения: huggingface.co/Qwen

Модель, доступ к которой откроется на платформе Qwen Chat в разделе «Генерация изображений», обладает расширенными возможностями рендеринга текста, в том числе многострочных макетов с семантикой на уровне абзацев и детализированными элементами. Поддерживаются языки на основе букв и иероглифов. Усовершенствованные механизмы многозадачного обучения помогли расширить возможности редактирования изображений с сохранением смыслового наполнения и визуального реализма.

Новая Qwen-Image, уверяет Alibaba, обошла существующие решения в нескольких тестах по задачам на генерацию и редактирование изображений, включая GenEval, DPG, OneIG-Bench, GEdit, ImgEdit и GSO. Особых успехов удалось добиться в тестах на качество прорисовки текста, таких как LongText-Bench, ChineseWord и TextCraft — новая модель превзошла современные аналоги. Qwen-Image, в частности, справляется с точным отображением китайских иероглифов на вывесках магазинов с правильной глубиной резкости, с созданием детализированного английского текста на обложках книг и информационных слайдах, поддерживается работа с двуязычным контентом.

Помимо обработки текста, модель свободно ориентируется в художественных жанрах от фотореализма до импрессионизма; поддерживаются различные операции при редактировании изображений, в том числе изменение стиля, добавление, удаление и улучшение деталей, а также редактирование текста и изменение поз у персонажей. В проекте Qwen-Image разработчики Alibaba, по их словам стремились способствовать развитию генерации изображений, снизить технические барьеры для создания визуальных материалов и вдохновить коллег на инновационные приложения.

xAI запустила Grok Imagine — платный ИИ-генератор изображений и видео с «пикантным режимом»

Компания xAI Илона Маска (Elon Musk) официально представила Grok Imagine — генератор изображений и видео, доступный для подписчиков тарифных планов SuperGrok и Premium+. Как и обещал Маск, позиционирующий Grok как ИИ, свободный от цензуры, Grok Imagine позволяет создавать контент, который обычно в интернете маркируется аббревиатурой NSFW (not safe/suitable for work — «небезопасно/неподходяще для демонстрации на работе»).

 Источник изображения: @elonmusk

Источник изображения: @elonmusk

Grok Imagine преобразовывает текстовые или графические запросы в 15-секундные видеоролики с оригинальным звуком и предлагает «пикантный режим», позволяющий пользователям создавать контент сексуального характера, включая частичную наготу. Пример такого видео опубликовал в своём аккаунте X Илон Маск. Журналисты TechCrunch сообщили, что многие из опробованных ими (во имя журналистики, конечно!) пикантных запросов привели к появлению «модерированных» размытых изображений, однако изображения полуобнажённых тел им получить удалось.

NSFW-контент неудивителен для xAI, учитывая выход в прошлом месяце пикантного аниме-компаньона Ani с искусственным интеллектом. Но так же, как необузданная натура Grok была забавной, пока он не начал изрыгать оскорбительный, антисемитский и женоненавистнический контент, появление Grok Imagine может повлечь за собой свои непредвиденные последствия.

При этом в Grok Imagine предусмотрены серьёзные ограничения, особенно учитывая, что модель позволяет создавать контент с изображениями знаменитостей. Так, попытки журналистов TechCrunch сгенерировать изображение беременного Дональда Трампа (Donald Trump) успехом не увенчались — Grok Imagine создавал либо изображения Трампа с младенцем на руках, либо рядом с беременной женщиной.

Grok Imagine стремится конкурировать с такими игроками, как Google DeepMind, OpenAI, Runway и китайские нейросети, но пока находится на начальном этапе развития. По отзывам тестировщиков, генерируемые им изображения и видео людей нередко выглядят мультяшно, особенно из-за неестественной текстуры кожи.

Тем не менее, генератор впечатляет: изображения создаются за считаные секунды и продолжают формироваться автоматически по мере прокрутки страницы. Затем их можно анимировать в стилизованные видеоролики. Пользовательский интерфейс удобен и интуитивно понятен.

Недавно Маск заявил о намерении создать Baby Grok — чат-бот, пригодный для работы с детским контентом. Учитывая, насколько скандально развивается «взрослая версия» Grok, подобное направление экспансии довольно рискованно. Тем не менее, с точки зрения охвата аудитории эта ставка вполне может себя оправдать. Популярность Baby Grok может стать дополнительным источником дохода для xAI и новой статьёй расходов для родителей.

«Лучший на сегодня» ИИ-генератор изображений Google Imagen 4 стал доступен бесплатно для всех

Компания Google представила ИИ-генератор изображений следующего поколения — Imagen 4, назвав его «лучшей на сегодняшний день моделью преобразования текста в изображение». «Imagen 4 предлагает значительно улучшенную визуализацию текста по сравнению с нашими предыдущими моделями и расширяет границы качества генерации изображений по тексту», — сообщила компания.

 Источник изображений: Google Developers Blog

Источник изображений: Google Developers Blog

Imagen 4 доступен в виде платной предварительной версии через API Gemini, а также для ограниченного бесплатного тестирования — в Google AI Studio. В настоящее время семейство Imagen 4 включает две модели: Imagen 4 и Imagen 4 Ultra.

Модель преобразования текста в изображение Imagen 4 разработана для решения широкого спектра задач генерации изображений с существенным улучшением качества — особенно при работе с текстом — по сравнению с Imagen 3. Стоимость использования Imagen 4 составляет $0,04 за одно сгенерированное изображение.

Флагманская модель Imagen 4 Ultra предназначена для создания изображений, максимально точно соответствующих текстовым подсказкам пользователя, что позволяет добиться лучших результатов по сравнению с другими ведущими генеративными моделями. Стоимость одного изображения, созданного с помощью Imagen 4 Ultra, составляет $0,06.

Все изображения, созданные моделями Imagen 4, получают маркировку в виде невидимого цифрового водяного знака SynthID.

Adobe выпустила мобильное приложение со всеми генеративными ИИ-инструментами Firefly

Платформа генеративных ИИ-сервисов Adobe Firefly теперь доступна на устройствах, работающих под управлением Android и iOS. Новое мобильное приложение Firefly позволяет пользователям генерировать изображения и видео по текстовому описанию, а также экспериментировать с популярными ИИ-инструментами для редактирования фотографий.

 Источник изображения: Adobe

Источник изображения: Adobe

Приложение Firefly для Android и iOS включает в себя фирменные алгоритмы Adobe для преобразования текста в изображения и видео, а также генеративные функции, такие как Generative Fill и Generative Expand, которые ранее были доступны в Photoshop. В дополнение к этому пользователи приложения могут взаимодействовать с ИИ-моделями сторонних разработчиков, такими как Google Imagen 3 и Imagen 4 для создания картинок, Veo 2 и Veo 3 для создания видео, а также генератором изображений OpenAI.

Созданный в приложении Firefly контент автоматически синхронизируется с учётной записью пользователя на платформе Creative Cloud, что упрощает его дальнейшее размещение в интернете или обработку в других приложениях Adobe. Как и в случае с веб-приложением Firefly, для взаимодействия с некоторыми ИИ-инструментами необходимы кредиты Firefly, которые можно получить в рамках ежемесячных обновлений или путём оформления одного из платных тарифов Creative Cloud.

Вместе с этим Adobe расширила возможности генерации видео в публичной бета-версии платформы интерактивных досок Firefly Boards. Теперь пользователи могут повторно микшировать загруженные клипы и генерировать новые кадры с помощью ИИ-модели Firefly, а также сторонних инструментов, таких как Veo 3 от Google. В ближайшее время разработчики также внедрят на платформу больше партнёрских ИИ-моделей от сторонних разработчиков для увеличения количества доступных функций.

OpenAI пришлось идти на крайние меры, чтобы справиться с ажиотажем вокруг генерации картинок в стиле Ghibli

Популярность ИИ-решений OpenAI среди пользователей сейчас зашкаливает, и каждый новый продукт пользуется буквально ажиотажным спросом. По словам главы OpenAI Сэма Альтмана (Sam Altman), компании пришлось пойти на необычные меры, чтобы справиться со спросом на создание изображений в стиле японской студии Ghibli Хаяо Миядзаки (Hayao Miyazaki) с помощью генератора изображений в ChatGPT.

 Источник изображения: Growtika/unsplash.com

Источник изображения: Growtika/unsplash.com

Сэм Альтман тогда пошутил, что шумиха вокруг этой функции чуть не расплавила графические процессоры компании, вынудив её на время ввести ограничения на частоту отправки запросов на генерацию изображений, чтобы смягчить проблему. Он буквально умолял пользователей снизить частоту генерации изображений, объясняя просьбу тем, что команде OpenAI нужна передышка и время для отдыха.

Из-за всплеска спроса на картинки в стиле Ghibli от GPT-4o Image Generation аудитория чат-бота ChatGPT менее чем за час увеличилась на 1 млн пользователей. Популярность сервиса объясняется тем, что он позволяет получать более реалистичные изображения по сравнению с другими инструментами, такими как технология генерации изображений DALL-E 3.

В недавнем интервью ресурсу Bloomberg Сэм Альтман признал, что компания была вынуждена идти на «неестественные» меры, чтобы справиться с вирусным эффектом Ghibli. «Я не думаю, что это случалось с какой-либо компанией раньше, — говорит Альтман. — Я видел вирусные моменты, но я никогда не видел, чтобы кто-то сталкивался с таким массовым наплывом использования продукта».

Альтман рассказал, что создание изображения с помощью нового генератора изображений компании требует значительных вычислительных ресурсов, и чтобы справиться со всплеском спроса, OpenAI пришлось сделать много вещей, в том числе позаимствовать вычислительные мощности у исследовательского подразделения OpenAI, а также отсрочить запуск новых функций.

«У нас нет сотен тысяч графических процессоров, которые просто простаивают без дела», — сообщил Альтман, добавив, что если бы у OpenAI было больше графических процессоров, она могла бы лучше справляться с резкими скачками спроса, и ей бы не пришлось прибегать к экстремальным мерам, таким как ограничения по скорости и задержка предоставления новых функций для бесплатных пользователей.

Adobe обновила ИИ-генератор изображений Firefly и переработала его веб-приложение

Adobe объявила о запуске новой версии ИИ-модели Firefly для генерации изображений, а также алгоритма генерации векторной графики и обновлённого веб-приложения, в котором собраны все генеративные модели компании, а также некоторые нейросети конкурентов. В дополнение к этому разработчики продолжают трудиться над созданием мобильного приложения Firefly.

 Источник изображения: Rubaitul Azad / Unsplash

Источник изображения: Rubaitul Azad / Unsplash

Большая языковая модель Firefly Image Model 4, по данным Adobe, превосходит своих предшественниц по качеству генерируемых изображений, скорости обработки запросов и возможностям по настройке параметров создаваемого контента. Поддерживается генерация изображений с разрешением до 2K. Существует также более производительная версия алгоритма Image Model 4 Ultra, которая может создавать сложные сцены с множеством мелких структур и большим количеством деталей.

Представитель Adobe рассказал, что разработчики сделали новые ИИ-модели более производительными, чтобы они могли генерировать более детализированные изображения. Помимо прочего, более качественной стала генерация текста на изображениях, а также появилась возможность создавать несколько изображений в том же стиле, что и исходное.

Вместе с этим компания открыла доступ всем желающим к своему ИИ-генератору видео Firefly, бета-тестирование которого началось в прошлом году. Алгоритм позволяет создавать видео на основе текстового описания или изображения, менять ракурсы камеры, указывать начальный и конечный кадры, настраивать элементы стиля анимации и др. ИИ-модель может создавать ролики в формате 1080p.

ИИ-модель Firefly для создания векторной графики может генерировать пригодные для дальнейшего редактирования векторные иллюстрации, а также итерировать и генерировать варианты логотипов, паттернов и др. Доступ ко всем новым ИИ-моделям Adobe можно получить в обновлённом веб-приложении Firefly. Там также нашлось место генератору изображений GPT от OpenAI, моделям Imagen 3 и Veo 2 от Google, а также алгоритму Flux 1.1 Pro от Flux. Пользователи могут переключаться между этими алгоритмами по своему усмотрению.

Adobe также проводит публичное тестирование нового продукта под названием Firefly Boards, который представляет собой холст для творчеств и реализации идей. С его помощью можно генерировать или импортировать изображения, редактировать их, в том числе совместно с другими пользователями платформы. Firefly Boards также будет доступен в веб-приложении Firefly.

В дополнение к этому Adobe открыла доступ к API Text-to-Image и Avatar API, а также объявила о начале бета-тестирования API Text-to-Video. Получить доступ к этим и другим программным интерфейсам компании можно через платформу Firefly Services.

Adobe и Figma взяли на вооружение передовой генератор изображений от OpenAI

Обновлённый генератор изображений OpenAI 4o Image Generation в составе ChatGPT привлёк внимание широкой аудитории благодаря своей способности создавать картинки в стиле студии аниме Ghibli. Теперь компания открыла доступ к «изначально мультимодальной модели» через API — доступ к платформе gpt-image-1 уже начали бронировать для себя крупные партнёры.

 Источник изображения: openai.com

Источник изображения: openai.com

«Универсальность модели позволяет ей создавать изображения в различных стилях, в точности придерживаться запросов пользователей, применять знания о мире и правильно воспроизводить текст, раскрывая бесчисленное множество сценариев практического применения в различных областях», — говорится в блоге OpenAI.

Поработать с моделью смогут пользователи сервисов Adobe и Figma, которые уже включили её поддержку в свои наборы инструментов. Adobe добавила её в приложения Firefly и Express; с сегодняшнего дня генератор изображений gpt-image-1 доступен также в Figma Design, где по простым текстовым запросам он сможет корректировать стили, добавлять или удалять объекты, расширять фоновые изображения и производить множество других операций.

OpenAI добавила, что продолжает сотрудничать с другими партнёрами, которые помогут ей раскрыть новые сценарии применения генератора изображений — среди них значатся, в частности, Canva, GoDaddy и Instacart.

AMD представила Amuse 3.0 — приложение для ИИ-генерации изображений на Ryzen и Radeon

Компания AMD представила Amuse 3.0 — программный инструмент для ИИ-генерации изображений. Платформа разработана в партнёрстве с компанией TensorStack AI. Она использует мощности процессоров AMD Ryzen AI и видеокарт Radeon RX для создания изображений и коротких видеороликов локально на ПК.

 Источник изображений: TechPowerUp / AMD

Источник изображений: TechPowerUp / AMD

AMD заявляет, что платформа Amuse 3.0 способна генерировать изображения печатного качества и видеоролики чернового качества (низкого разрешения) длиной до 6 секунд. Amuse 3.0 поддерживает более 100 новых моделей ИИ, включая Stable Diffusion 3.5 и FLUX.

Каждая из этих моделей была тщательно оптимизирована для работы с аппаратным обеспечением AMD, что привело к увеличению скорости вывода до 4,3 раз по сравнению с универсальными моделями. Для платформы заявлена поддержка видеофильтров на основе ИИ.

AMD заявляет, что производительность Amuse 3.0 по сравнению с универсальной базовой платформой генерации изображения Olive Optimize в 4,3 раза выше и была достигнута на видеокарте Radeon RX 9070 XT. Компания также добавила данные о производительности процессоров Ryzen AI со встроенным NPU мощностью 50 TOPS, с которыми оптимизированные модели AMD показали себя в 3,3 раза быстрее при генерации изображений.

Каждый десятый человек на Земле теперь пользуется ChatGPT, и его популярность только растёт

Число еженедельных активных пользователей ChatGPT приблизилось к одному миллиарду. Такой рост совпал с мартовским обновлением функции генерации изображений, что вызвало всплеск интереса к ИИ-сервису. В прошлом месяце ChatGPT стал самым загружаемым в мире приложением за исключением игр, а общее количество его установок составило 46 млн.

 Источник изображения: Growtika / Unsplash

Источник изображения: Growtika / Unsplash

Во время беседы на сцене конференции TED куратор мероприятия Крис Андерсон (Chris Anderson) задал Сэму Альтману (Sam Altman), генеральному директору OpenAI, вопрос о числе пользователей ChatGPT. Альтман ответил, что последняя озвученная цифра составляла 500 млн еженедельных активных пользователей, и добавил, что аудитория продолжает стремительно расти. Андерсон заметил, что в частной беседе Альтман упоминал о двукратном росте за несколько недель. Альтман это не опроверг.

Альтман также сообщил, что ChatGPT пользуются около 10 % населения Земли. Поскольку сегодня на Земле живут более 8 млрд человек, это примерно 800 млн пользователей. После запуска 30 ноября 2022 года бесплатной исследовательской версии ChatGPT на основе ИИ-модели GPT-3.5, он достиг отметки в 100 млн пользователей всего за два месяца, став самым популярным приложением в истории. Для сравнения: TikTok для этого потребовалось девять месяцев, а Instagram — два с половиной года.

К августу 2024 года число еженедельных активных пользователей ChatGPT достигло 200 млн. Последующий резкий рост был вызван обновлением 25 марта, в котором были улучшены возможности генерации изображений. После этого социальные сети наводнили изображения и видео, выполненные в различных художественных стилях, наиболее популярным из которых оказался стиль японской анимационной студии Studio Ghibli. Альтман отметил, что спрос оказался настолько высоким, что фактически «плавил» графические процессоры компании. Хорошей новостью для OpenAI стало то, что обновление привлекло миллион новых пользователей ChatGPT всего за один час.

Согласно данным аналитической платформы Appfigures, в марте ChatGPT стал самым скачиваемым неигровым приложением в мире. Количество установок выросло на 28 % по сравнению с февралем и достигло 46 млн. Взрывному успеху способствовало не только улучшение генератора изображений, но и, вероятно, снятие некоторых ограничений в работе сервиса.

 Источник изображения: TED

Источник изображения: TED

На фоне популяризации генеративного ИИ усиливаются опасения по поводу его влияния на рынок труда. Всё больше компаний сокращают персонал, поскольку задачи, ранее выполнявшиеся людьми, теперь выполняют ИИ-системы. На вопрос о том, заменит ли ИИ человека, Альтман ответил: «Можно сказать: „О, Боже, оно делает всё, что делаю я. Что же со мной будет?“ Или вы можете сказать, как во времена всех других технологических революций в истории: „Хорошо, теперь есть новый инструмент. Я могу делать гораздо больше. Что я смогу делать?“ Конечно, ожидания от человека, занимающего определённую должность, возрастают, но возможности расширяются настолько значительно, что, я думаю, соответствовать этим ожиданиям возможно».

Представлена Midjourney V7 — ИИ-генератор изображений стал идеально понимать запросы и поразил качеством

Midjourney представила альфа-версию основанного на искусственном интеллекте генератора изображений V7. В отличие от OpenAI ChatGPT эта модель не была оптимизирована для создания картинок в стиле Ghibli, но это не мешает ей генерировать эстетически приятные работы, пишет TechCrunch.

 Источник изображения: x.com/midjourney

Источник изображения: x.com/midjourney

Прежде чем начать работу с Midjourney V7, пользователю придётся оценить около двух сотен изображений, чтобы система создала для него профиль «персонализации» — это помогает настроить модель в соответствии с визуальными предпочтениями конкретного человека; в данном проекте персонализация впервые включена по умолчанию. По окончании настройки можно начинать работу с V7 как на сайте Midjourney, так и на сервере компании в Discord. При её разработке использовалась «совершенно иная архитектура», рассказал гендиректор Midjourney Дэвид Хольц (David Holz).

Модель доступна в двух вариантах: есть более ресурсоёмкий Turbo; и Relax с режимом Draft Mode, при котором изображения генерируются в десять раз быстрее, и задействуются вдвое меньше вычислительных ресурсов. «Черновые» изображения Draft Mode имеют более низкое качество, чем созданные в стандартном режиме картинки, но их можно улучшить и повторно отрисовать в один щелчок мыши. Модель имеет как преимущества, так и недостатки, предупредил господин Хольц, поэтому для достижения оптимального результата пользователям рекомендуется экспериментировать с составлением запросов.

Midjourney — необычная компания. Её открыл в 2022 году Дэвид Хольц, некогда соучредитель производителя периферии Leap Motion; отличительной чертой стартапа является полное отсутствие внешнего финансирования. В конце 2023 года компания сообщила, что ожидает получить около $200 млн прибыли. В прошлом году Midjourney объявила о наборе сотрудников в проект по разработке оборудования; при этом она продолжала обучение ранее анонсированных моделей для генерации видео и трёхмерных объектов.

Картинки в стиле Ghibli перегрузили серверы OpenAI — выпуск новых функций замедлен

Генеральный директор OpenAI Сэм Альтман (Sam Altman) заявил, что из-за высокой популярности нового инструмента генерации изображений в ChatGPT компания столкнулась с перегрузкой оборудования, из-за чего выход новых продуктов и функций придётся ограничить.

 Источник изображения: Mariia Shalabaieva / Unsplash

Источник изображения: Mariia Shalabaieva / Unsplash

По словам Альтмана, OpenAI пытается справиться с ситуацией, но пользователям следует ожидать как минимум задержек в релизах, а также перебоев в работе сервисов и замедления работы платформы. Тем не менее, как отмечает TechCrunch, компания уверяет, что держит ситуацию под контролем. «Что-то будет ломаться, а обслуживание иногда будет медленным, поскольку мы справляемся с проблемами, связанными с пропускной способностью, — написал Альтман. — Мы стараемся решать проблемы оперативно, чтобы всё действительно работало».

Напомним, выпущенный недавно новый генератор изображений вызвал буквально ажиотаж благодаря способности имитировать различные стили, в частности популярный стиль анимационной студии Studio Ghibli. Однако компания не успевает справляться с наплывом пользователей, а сотрудники вынуждены работать допоздна и даже в выходные, чтобы поддерживать работоспособность системы.

Чтобы снизить нагрузку на свои серверы, OpenAI задержала запуск нового инструмента генерации изображений для бесплатных пользователей ChatGPT, а возможность создания видео с помощью Sora временно отключена для новых пользователей. Компания не уточняет, когда проблемы с перегрузкой будут окончательно решены и пока продолжает работать над улучшением инфраструктуры.

В понедельник ChatGPT зафиксировал регистрацию в сервисе одного миллиона новых пользователей всего за один час. Также отметим, что на сегодня системой пользуются 500 миллионов еженедельных пользователей и 20 миллионов подписчиков, что значительно больше по сравнению с концом 2024 года, когда показатели составляли 300 миллионов и 15,5 миллиона соответственно.

«Наши GPU плавятся»: ажиотаж вокруг нового генератора картинок в ChatGPT заставил OpenAI ввести ограничения

Представленная на днях функция 4o Image Generation генерации качественных изображений вызвала огромный интерес у пользователей. Ажиотаж даже вынудил OpenAI «временно» ограничить частоту отправки запросов на генерацию изображений, сообщил в соцсети X гендиректор компании Сэм Альтман (Sam Altman). «Очень забавно наблюдать, как людям нравятся изображения в ChatGPT, но наши графические процессоры плавятся», — отметил он в своём сообщении.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Альтман не уточнил, какой предел скорости был установлен, лишь выразив надежду, что это ограничение не понадобится надолго, поскольку OpenAI пытается повысить эффективность обработки огромного числа запросов.

Высочайший спрос уже заставил компанию отсрочить запуск обновлённого генератора изображений на базе GPT-4o для бесплатных пользователей ChatGPT — Альтман ранее пообещал, что бесплатные пользователи «скоро» смогут генерировать с его помощью до трёх изображений в день. Но, по-видимому, этого оказалось недостаточно, чтобы как-то снизить нагрузку на инфраструктуру OpenAI.

Улучшенный инструмент генерации изображений использует мультимодальную большую языковую модель GPT-4o. Получающиеся с его помощью изображения выглядят качественно, более реалистично и лучше соответствуют запросам. Также имеются успехи в преодолении прошлых проблем, например, с отображением текста. В интервью ресурсу The Verge представитель компании назвал улучшение генерации как «шаговое изменение» по сравнению с предыдущими моделями. Тем не менее возникшие проблемы служат напоминанием о том, сколько технической мощности и энергии требуется для реализации функции генерации изображений в ChatGPT, отметил The Verge.

OpenAI решила попридержать запуск 4o Image Generation для бесплатных пользователей

Компания OpenAI вынуждена перенести сроки предоставления доступа к встроенному генератору изображений в ChatGPT для пользователей бесплатной версии. Сэм Альтман (Sam Altman) в своём сообщении признал, что новый инструмент 4o Image Generation оказался популярнее, чем ожидалось, поэтому развёртывание для бесплатного использования будет отложено на некоторое время, сообщает The Verge.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Новый ИИ-генератор изображений был интегрирован в ChatGPT буквально на днях. С его помощью можно создавать картинки непосредственно в приложении, используя новейшую модель рассуждений GPT-4o. Функция так понравилась пользователям, что они уже вовсю стали делиться в социальных сетях изображениями, в частности, стилизованными под работы студии Ghibli, — тренд, к которому присоединился даже сам Альтман.

По словам разработчиков, 4o Image Generation отличается улучшенным рендерингом текста и использует для генерации изображений так называемый авторегрессионный подход, когда изображение создаётся последовательно, слева направо и сверху вниз, а не одномоментно целиком, что позволяет создавать картинки без каких-либо ошибок или искажений в тексте, чего раньше добиться в других генераторах не удавалось.

В настоящее время доступ к функции имеют только подписчики платных тарифов ChatGPT Plus, Pro и Team. Когда именно пользователи бесплатной версии смогут опробовать новый ИИ-генератор, пока не совсем ясно из-за неожиданно высокого спроса на эту функцию.

OpenAI представила функцию генерации точных изображений в ChatGPT на базе GPT-4o — она доступна бесплатно

OpenAI встроила функцию генерации точных изображений непоcредственно в ChatGPT. Новая функция, именуемая 4o Image Generation, опирается на мультимодальную большую языковую модель GPT-4o. Она понимает контекст, сложные инструкции, взаимодействия объектов и даже генерирует текстовые надписи без артефактов. Доступ для всех откроют сегодня.

 Источник изображения: OpenAI

Источник изображений: OpenAI

ChatGPT и прежде умел генерировать изображения с помощью нейросети Dall-E 3. Однако обновлённая функция работает куда лучше и точнее. Представитель OpenAI Тайя Кристиансон (Taya Christianson) уточнила, что лимиты для бесплатных пользователей останутся такими же, как у DALL-E, то есть три изображения в день. Доступ к DALL-E по-прежнему возможен через пользовательский интерфейс ChatGPT.

Как отметил глава исследований Габриэль Го (Gabriel Goh), использование GPT-4o позволяет ИИ работать с любыми типами данных — текстом, изображениями, аудио и видео. Кроме того, Sora получила ключевое улучшение, заключающееся в корректном соотношении атрибутов и объектов (binding). Го объяснил, что большинство ИИ путаются при обработке 5–8 элементов. Например, ИИ может получить запрос нарисовать синюю звезду и красный треугольник, но создать красную звезду и нечто отличное от треугольника. 4o Image Generation справляется с 15–20 объектами без ошибок.

 Источник изображения: OpenAI

Пользователи также заметят улучшение в отрисовке текста, что позволяет генерировать на изображениях читаемый текст без опечаток. В существующих инструментах для генерации изображений текст часто искажался и достижение качественного рендеринга в этом смысле было серьёзной проблемой, так как даже небольшие ошибки в заголовках или текстовых элементах могут сделать всё изображение полностью непригодным.

 Генерация по запросу «сделайте очень красочную ризографию о том, как приготовить матча» (make a very colorful risograph on how to make matcha)

Генерация по запросу «Cделай очень красочную ризографию о том, как приготовить матча» (make a very colorful risograph on how to make matcha)

Система также использует теперь нестандартный метод генерации. Изображения создаются последовательно, слева направо и сверху вниз, а не целиком, как это происходит в DALL-E. По мнению Го, это объясняет превосходство 4o Image Generation в работе с текстом и сложными сценами.

OpenAI продемонстрировала возможности 4o Image Generation на научных диаграммах, например, эксперимент Ньютона с призмой, комиксах и постерах. Также были показаны практические применения в создании изображений с прозрачным фоном для стикеров, меню ресторанов и логотипов. 4o Image Generation со всеми заданиями справилась успешно, не допустив в тексте никаких ошибок.

Также 4o Image Generation способен редактировать загруженные пользователем изображения по простым запросам, добавляя на них элементы или наоборот убирая.

 Пример добавление элементов на фотографию с помощью GPT-4o

Пример добавление элементов на фотографию с помощью GPT-4o

Однако новая система генерирует изображения дольше, чем предыдущие, но OpenAI считает это оправданным компромиссом. «Хотя у нас определённо есть возможности для улучшения времени отклика, качество этих изображений, возможности, знание о мире действительно компенсируют дополнительные секунды ожидания», — сказали в компании.

 Источник изображения: OpenAI

Отвечая на вопросы о мерах безопасности, упоминая скандальные дипфейки Тейлор Свифт (Taylor Swift), созданные с помощью модели Microsoft, способность Grok от xAI изобразить Камалу Харрис (Kamala Harris) с оружием и удаление водяных знаков в Google Gemini, команда OpenAI подчеркнула наличие надёжных механизмов защиты от злоупотреблений.

Директор по дизайну OpenAI Шеннон Джагер (Jackie Shannon) заявила, что инструмент предотвращает удаление водяных знаков, блокирует генерацию дипфейков, связанных с телом человека и отказывает в запросах на создание материалов с различным родом насилия над детьми (CSAM). Кроме того, Шеннон пояснила, что все сгенерированные изображения будут включать стандартные метаданные C2PA, чтобы отметить изображение как созданное OpenAI.

Поддержка программного генератора кадров Nvidia Smooth Motion появится у видеокарт GeForce RTX 40-й серии

С выпуском видеокарт GeForce RTX 50-й серии компания Nvidia также выпустила новую технологию Smooth Motion. Она представляет собой аналог технологии AMD Fluid Motion Frames — генератора кадров, реализованного на программного уровне. Технология создаёт один дополнительный кадр между двумя кадрами, отрисованными видеокартой, повышая тем самым плавность игрового процесса.

 Источник изображения: VideoCardz

Источник изображения: VideoCardz

Технология Smooth Motion генерирует и масштабирует весь кадр целиком, что означает, что такие элементы, как игровой пользовательский интерфейс, текстовые подсказки или карта местности, также будут сгенерированы. Некоторые игровые элементы могут выглядеть не очень хорошо, поскольку при их генерации, в отличие от технологий DLSS Frame Generation (FG) или DLSS Multi Frame Generation (MFG), Smooth Motion не задействует векторы движения.

Nvidia Smooth Motion обеспечивает качество изображения и задержку хуже, чем DLSS Frame Generation. Но, с другой стороны, геймерам не нужно ждать, пока разработчики игр интегрируют поддержку данной технологии, поскольку Nvidia Smooth Motion работает на уровне драйвера, а значит поддерживается всеми современными играми.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Технология Nvidia Smooth Motion стала частью последней версии графического драйвера Nvidia Game Ready, а также приложения Nvidia App. Она официально поддерживается только видеокартами GeForce RTX 50-й серии, однако это лишь временная эксклюзивность. Согласно сообщению Nvidia, поддержка Smooth Motion в перспективе появится и на видеокартах GeForce RTX 40-й серии.

«Nvidia Smooth Motion является новой технологией, работающей на уровне драйвера, поэтому требует времени для проверок и валидаций на уровне множества аппаратных продуктов. Поддержка технологии видеокартами GeForce RTX 40-й серии появится в рамках будущих обновлений», — говорит маркетинговый отдел Nvidia.

Геймеры смогут включить Smooth Motion в настройках драйвера или в игровых профилях.

«Да, качество изображения и задержка ввода могут быть не такими хорошими, как у FG или MFG, но есть множество сценариев, где она [технология Smooth Motion] будет отлично работать», — добавляет евангелист GeForce Джейкоб Фримен (Jacob Freeman) на своей странице в соцсети X.

Примечательно, что Nvidia официально не анонсировала Smooth Motion для видеокарт RTX 50-й серии. Компания просто добавила её в последнюю версию драйвера GeForce Game Ready. Геймерам также следует знать, что технология работает исключительно с играми, основанными на DirectX 11 и DirectX 12.


window-new
Soft
Hard
Тренды 🔥
Волна интереса к ИИ порождает новых миллиардеров с рекордной скоростью 2 ч.
Почти 30 тыс. серверов Microsoft Exchange Server оказались уязвимыми из-за нерасторопности администраторов 5 ч.
Google Gemini внезапно заработал в России без ограничений и ухищрений 5 ч.
Новая статья: Titan Quest II — квесты есть, титаны будут позже. Предварительный обзор 6 ч.
Журналисты показали первые 13 минут из Reanimal — жуткого кооперативного приключения от создателей Little Nightmares 7 ч.
Gmail для Android получил кнопку «Отметить как прочитанное» и новую выразительную анимацию свайпов 7 ч.
«Не прошло и 26 лет»: GamesVoice выпустила трейлер русской озвучки System Shock 2, которая выйдет этой осенью 7 ч.
В ChatGPT может появиться реклама, но руководство OpenAI постарается этого не допустить 9 ч.
Беспощадно реалистичный шутер Better Than Dead в духе гонконгских боевиков 80-х и 90-х нашёл издателя — жестокий геймплейный трейлер 9 ч.
Hardspace: Shipbreaker отстыковалась от Focus Entertainment — разработчики выкупили права на игру 12 ч.
Президент Трамп дал понять, что самые непокорные производители чипов столкнутся с 300-% пошлинами 33 мин.
OpenAI заработала $2 млрд на мобильном приложении ChatGPT — в 30 раз больше всех конкурентом вместе 5 ч.
Intel увеличит инвестиции в продавцов своих чипов и отдаст маркетинг на аутсорс 10 ч.
Роботы начнут вынашивать человеческих детей — китайцы разработали андроида с искусственной маткой 12 ч.
Саудовская center3 потратит $10 млрд на ЦОД общей мощностью 1 ГВт 12 ч.
Lenovo стала мировым лидером в ИИ ПК — каждый третий проданный ею компьютер оснащён ИИ-ускорителем 12 ч.
Реинкарнация: китайцы переделали BlackBerry Classic в современный Android-смартфон за $400 12 ч.
ИИ-стартап Rivos, успевший посудиться с Apple, ищет $500 млн, чтобы побороться с NVIDIA 13 ч.
Lenovo показала рекордный рост выручки от продаж серверов и СХД 13 ч.
Intel показала Arm-процессор на ангстремном техпроцессе 18A 14 ч.