Сегодня 08 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → изображение
Быстрый переход

Google научила ИИ-бота Gemini редактировать любые изображения

Google Gemini научился редактировать как сгенерированные ИИ изображения, так и загруженные со смартфона или компьютера. В ближайшие недели новая функциональность станет доступна пользователям в большинстве стран мира, где доступен Gemini, и получит поддержку более чем 45 языков. Россия, напомним, в этот список не входит, однако русский язык Gemini понимает и «говорит» на нём.

 Источник изображений: Google

Источник изображений: Google

Нативное редактирование изображений в ИИ-чат-боте Gemini представляет собой эволюционный шаг в развитии возможностей взаимодействия пользователя с ИИ. Запуск последовал за моделью редактирования изображений с помощью ИИ, которую Google опробовала в марте в своей платформе AI Studio и которая получила широкую огласку благодаря своей спорной способности удалять водяные знаки с любого изображения. Подобно недавно обновлённому инструменту редактирования изображений в ChatGPT, встроенный редактор Gemini теоретически способен достигать более высоких результатов по сравнению с автономными ИИ-генераторами изображений.

Теперь Gemini предлагает инновационный «многоэтапный» процесс редактирования, обеспечивающий, по описанию компании, «более богатые и контекстуальные» отклики на каждый запрос — с интеграцией текста и изображений. Функциональность нового редактора позволяет пользователям изменять фон на изображениях, заменять объекты, добавлять элементы и выполнять множество других операций — и всё это непосредственно в интерфейсе Gemini. Подобное решение существенно упрощает процесс создания и редактирования визуального контента, устраняя необходимость переключаться между несколькими специализированными приложениями.

 Источник изображений: Google

«Например, вы можете загрузить личную фотографию и попросить Gemini сгенерировать изображение того, как вы будете выглядеть с разными цветами волос. Также можно попросить Gemini создать первый черновик сказки на ночь о драконах и сгенерировать иллюстрации к истории», — поясняет Google в своём блоге. Эти примеры наглядно демонстрируют многофункциональность системы, пригодной как для утилитарных, так и для креативных задач.

Потенциальные риски технологии в контексте создания дипфейков обоснованно вызывают опасения у специалистов по информационной безопасности. Чтобы нивелировать возможные злоупотребления, Google внедряет технологию невидимых водяных знаков во все изображения, созданные или отредактированные с помощью нативного генератора изображений Gemini. Параллельно компания проводит экспериментальные исследования по внедрению видимых водяных знаков на всех изображениях, сгенерированных с помощью Gemini.

Adobe обновила ИИ-генератор изображений Firefly и переработала его веб-приложение

Adobe объявила о запуске новой версии ИИ-модели Firefly для генерации изображений, а также алгоритма генерации векторной графики и обновлённого веб-приложения, в котором собраны все генеративные модели компании, а также некоторые нейросети конкурентов. В дополнение к этому разработчики продолжают трудиться над созданием мобильного приложения Firefly.

 Источник изображения: Rubaitul Azad / Unsplash

Источник изображения: Rubaitul Azad / Unsplash

Большая языковая модель Firefly Image Model 4, по данным Adobe, превосходит своих предшественниц по качеству генерируемых изображений, скорости обработки запросов и возможностям по настройке параметров создаваемого контента. Поддерживается генерация изображений с разрешением до 2K. Существует также более производительная версия алгоритма Image Model 4 Ultra, которая может создавать сложные сцены с множеством мелких структур и большим количеством деталей.

Представитель Adobe рассказал, что разработчики сделали новые ИИ-модели более производительными, чтобы они могли генерировать более детализированные изображения. Помимо прочего, более качественной стала генерация текста на изображениях, а также появилась возможность создавать несколько изображений в том же стиле, что и исходное.

Вместе с этим компания открыла доступ всем желающим к своему ИИ-генератору видео Firefly, бета-тестирование которого началось в прошлом году. Алгоритм позволяет создавать видео на основе текстового описания или изображения, менять ракурсы камеры, указывать начальный и конечный кадры, настраивать элементы стиля анимации и др. ИИ-модель может создавать ролики в формате 1080p.

ИИ-модель Firefly для создания векторной графики может генерировать пригодные для дальнейшего редактирования векторные иллюстрации, а также итерировать и генерировать варианты логотипов, паттернов и др. Доступ ко всем новым ИИ-моделям Adobe можно получить в обновлённом веб-приложении Firefly. Там также нашлось место генератору изображений GPT от OpenAI, моделям Imagen 3 и Veo 2 от Google, а также алгоритму Flux 1.1 Pro от Flux. Пользователи могут переключаться между этими алгоритмами по своему усмотрению.

Adobe также проводит публичное тестирование нового продукта под названием Firefly Boards, который представляет собой холст для творчеств и реализации идей. С его помощью можно генерировать или импортировать изображения, редактировать их, в том числе совместно с другими пользователями платформы. Firefly Boards также будет доступен в веб-приложении Firefly.

В дополнение к этому Adobe открыла доступ к API Text-to-Image и Avatar API, а также объявила о начале бета-тестирования API Text-to-Video. Получить доступ к этим и другим программным интерфейсам компании можно через платформу Firefly Services.

Adobe и Figma взяли на вооружение передовой генератор изображений от OpenAI

Обновлённый генератор изображений OpenAI 4o Image Generation в составе ChatGPT привлёк внимание широкой аудитории благодаря своей способности создавать картинки в стиле студии аниме Ghibli. Теперь компания открыла доступ к «изначально мультимодальной модели» через API — доступ к платформе gpt-image-1 уже начали бронировать для себя крупные партнёры.

 Источник изображения: openai.com

Источник изображения: openai.com

«Универсальность модели позволяет ей создавать изображения в различных стилях, в точности придерживаться запросов пользователей, применять знания о мире и правильно воспроизводить текст, раскрывая бесчисленное множество сценариев практического применения в различных областях», — говорится в блоге OpenAI.

Поработать с моделью смогут пользователи сервисов Adobe и Figma, которые уже включили её поддержку в свои наборы инструментов. Adobe добавила её в приложения Firefly и Express; с сегодняшнего дня генератор изображений gpt-image-1 доступен также в Figma Design, где по простым текстовым запросам он сможет корректировать стили, добавлять или удалять объекты, расширять фоновые изображения и производить множество других операций.

OpenAI добавила, что продолжает сотрудничать с другими партнёрами, которые помогут ей раскрыть новые сценарии применения генератора изображений — среди них значатся, в частности, Canva, GoDaddy и Instacart.

AMD представила Amuse 3.0 — приложение для ИИ-генерации изображений на Ryzen и Radeon

Компания AMD представила Amuse 3.0 — программный инструмент для ИИ-генерации изображений. Платформа разработана в партнёрстве с компанией TensorStack AI. Она использует мощности процессоров AMD Ryzen AI и видеокарт Radeon RX для создания изображений и коротких видеороликов локально на ПК.

 Источник изображений: TechPowerUp / AMD

Источник изображений: TechPowerUp / AMD

AMD заявляет, что платформа Amuse 3.0 способна генерировать изображения печатного качества и видеоролики чернового качества (низкого разрешения) длиной до 6 секунд. Amuse 3.0 поддерживает более 100 новых моделей ИИ, включая Stable Diffusion 3.5 и FLUX.

Каждая из этих моделей была тщательно оптимизирована для работы с аппаратным обеспечением AMD, что привело к увеличению скорости вывода до 4,3 раз по сравнению с универсальными моделями. Для платформы заявлена поддержка видеофильтров на основе ИИ.

AMD заявляет, что производительность Amuse 3.0 по сравнению с универсальной базовой платформой генерации изображения Olive Optimize в 4,3 раза выше и была достигнута на видеокарте Radeon RX 9070 XT. Компания также добавила данные о производительности процессоров Ryzen AI со встроенным NPU мощностью 50 TOPS, с которыми оптимизированные модели AMD показали себя в 3,3 раза быстрее при генерации изображений.

Каждый десятый человек на Земле теперь пользуется ChatGPT, и его популярность только растёт

Число еженедельных активных пользователей ChatGPT приблизилось к одному миллиарду. Такой рост совпал с мартовским обновлением функции генерации изображений, что вызвало всплеск интереса к ИИ-сервису. В прошлом месяце ChatGPT стал самым загружаемым в мире приложением за исключением игр, а общее количество его установок составило 46 млн.

 Источник изображения: Growtika / Unsplash

Источник изображения: Growtika / Unsplash

Во время беседы на сцене конференции TED куратор мероприятия Крис Андерсон (Chris Anderson) задал Сэму Альтману (Sam Altman), генеральному директору OpenAI, вопрос о числе пользователей ChatGPT. Альтман ответил, что последняя озвученная цифра составляла 500 млн еженедельных активных пользователей, и добавил, что аудитория продолжает стремительно расти. Андерсон заметил, что в частной беседе Альтман упоминал о двукратном росте за несколько недель. Альтман это не опроверг.

Альтман также сообщил, что ChatGPT пользуются около 10 % населения Земли. Поскольку сегодня на Земле живут более 8 млрд человек, это примерно 800 млн пользователей. После запуска 30 ноября 2022 года бесплатной исследовательской версии ChatGPT на основе ИИ-модели GPT-3.5, он достиг отметки в 100 млн пользователей всего за два месяца, став самым популярным приложением в истории. Для сравнения: TikTok для этого потребовалось девять месяцев, а Instagram — два с половиной года.

К августу 2024 года число еженедельных активных пользователей ChatGPT достигло 200 млн. Последующий резкий рост был вызван обновлением 25 марта, в котором были улучшены возможности генерации изображений. После этого социальные сети наводнили изображения и видео, выполненные в различных художественных стилях, наиболее популярным из которых оказался стиль японской анимационной студии Studio Ghibli. Альтман отметил, что спрос оказался настолько высоким, что фактически «плавил» графические процессоры компании. Хорошей новостью для OpenAI стало то, что обновление привлекло миллион новых пользователей ChatGPT всего за один час.

Согласно данным аналитической платформы Appfigures, в марте ChatGPT стал самым скачиваемым неигровым приложением в мире. Количество установок выросло на 28 % по сравнению с февралем и достигло 46 млн. Взрывному успеху способствовало не только улучшение генератора изображений, но и, вероятно, снятие некоторых ограничений в работе сервиса.

 Источник изображения: TED

Источник изображения: TED

На фоне популяризации генеративного ИИ усиливаются опасения по поводу его влияния на рынок труда. Всё больше компаний сокращают персонал, поскольку задачи, ранее выполнявшиеся людьми, теперь выполняют ИИ-системы. На вопрос о том, заменит ли ИИ человека, Альтман ответил: «Можно сказать: „О, Боже, оно делает всё, что делаю я. Что же со мной будет?“ Или вы можете сказать, как во времена всех других технологических революций в истории: „Хорошо, теперь есть новый инструмент. Я могу делать гораздо больше. Что я смогу делать?“ Конечно, ожидания от человека, занимающего определённую должность, возрастают, но возможности расширяются настолько значительно, что, я думаю, соответствовать этим ожиданиям возможно».

Учёные соединили 60 сенсоров для смартфонных камер, чтобы наблюдать за аннигиляцией антипротонов

Учёные из подразделения Antimatter Factory в ЦЕРН, занятые в проекте AEgIS, решили построить 3,84-гигапиксельный датчик изображения, который поможет в наблюдении за аннигиляцией протонов — его сформировали из 60 сенсоров, которые используются в современных смартфонах.

 Источник изображения: home.cern

Источник изображения: home.cern

Экспериментальный детектор на датчиках, изначально разработанных для камер смартфонов, построила группа учёных под руководством профессора Кристофа Хугеншмидта (Christoph Hugenschmidt) из Мюнхенского технического университета. Вместо того, чтобы создавать такую систему с нуля, они перепрофилировали 60 сенсоров разрешением по 64 мегапикселя и сформировали массив суммарным разрешением 3,84 гигапикселя под названием OPHANIM (Optical Photon and Antimatter Imager). С его помощью они намереваются фиксировать столкновения антипротонов с материей и возникающие при аннигиляции вспышки.

Чтобы адаптировать сенсоры для научного использования, учёным пришлось удалить некоторые компоненты, предназначенные для используемой в смартфонах электроники — в результате датчики получили возможность напрямую фиксировать световые изображения, связанные с событиями при аннигиляции. Детектор OPHANIM позволит учёным наблюдать события аннигиляции в реальном времени с разрешением около 0,6 мкм — этого достаточно, чтобы различать возникающие в ходе процесса новые частицы.

Значение работы выходит за рамки исследований антиматерии. Способность OPHANIM отслеживать частицы с такой точностью может принести пользу для широкого спектра экспериментов при относительно невысокой стоимости оборудования, созданного на основе существующих потребительских решений.

Amazon представила ИИ-модель Nova Reel 1.1 для генерации двухминутных видео по текстовым подсказкам

Amazon представила обновлённую ИИ-модель Nova Reel 1.1, позволяющую генерировать видео продолжительностью до двух минут на основе текстовых подсказок пользователей. Её предыдущая версия Nova Reel была анонсирована в декабре 2024 года, став первой попыткой компании выйти на рынок моделей для создания видео с помощью генеративного ИИ.

 Источник изображения: Amazon

Источник изображения: Amazon

Nova Reel 1.1, может генерировать «многокадровые» видео с «единым стилем» между кадрами, сообщила в блоге разработчик-адвокат AWS Элизабет Фуэнтес (Elizabeth Fuentes). Пользователи могут предоставить текстовую подсказку длиной до 4000 символов для генерации двухминутного видео, состоящего из шестисекундных кадров.

Обновлённая модель также получила новый режим под названием «Ручной многокадровый» (Multishot Manual). В этом режиме модель может использовать изображение вместе с подсказкой, чтобы обеспечить лучшее соответствие запросу композиции видеокадра. По словам Фуэнтес, при наличии изображения с разрешением 1280 × 720 пикселей и подсказки с максимальным количеством символов 512 модель может генерировать видео, содержащие до 20 кадров.

Модели Nova Reel доступны только на платформах и в сервисах AWS, включая Bedrock — набор инструментов для разработки ИИ компании. При этом клиенты должны запросить доступ к ним.

Модели, генерирующие видео, обучаются на огромном количестве образцов видео, необходимых для «изучения» закономерностей для создания новых клипов. Некоторые компании обучают модели на видео, защищённых авторским правом без получения на это разрешения от владельцев или авторов. В результате эти модели могут «выдать» защищённые авторским правом кадры, подвергая пользователей моделей опасности судебного иска в связи нарушением прав на интеллектуальную собственность.

Amazon не раскрыла источник данных для обучения Nova Reel, но пообещала, что будет защищать клиентов AWS в случае их обвинения в нарушении авторских прав в соответствии со своей политикой возмещения ущерба.

Представлена Midjourney V7 — ИИ-генератор изображений стал идеально понимать запросы и поразил качеством

Midjourney представила альфа-версию основанного на искусственном интеллекте генератора изображений V7. В отличие от OpenAI ChatGPT эта модель не была оптимизирована для создания картинок в стиле Ghibli, но это не мешает ей генерировать эстетически приятные работы, пишет TechCrunch.

 Источник изображения: x.com/midjourney

Источник изображения: x.com/midjourney

Прежде чем начать работу с Midjourney V7, пользователю придётся оценить около двух сотен изображений, чтобы система создала для него профиль «персонализации» — это помогает настроить модель в соответствии с визуальными предпочтениями конкретного человека; в данном проекте персонализация впервые включена по умолчанию. По окончании настройки можно начинать работу с V7 как на сайте Midjourney, так и на сервере компании в Discord. При её разработке использовалась «совершенно иная архитектура», рассказал гендиректор Midjourney Дэвид Хольц (David Holz).

Модель доступна в двух вариантах: есть более ресурсоёмкий Turbo; и Relax с режимом Draft Mode, при котором изображения генерируются в десять раз быстрее, и задействуются вдвое меньше вычислительных ресурсов. «Черновые» изображения Draft Mode имеют более низкое качество, чем созданные в стандартном режиме картинки, но их можно улучшить и повторно отрисовать в один щелчок мыши. Модель имеет как преимущества, так и недостатки, предупредил господин Хольц, поэтому для достижения оптимального результата пользователям рекомендуется экспериментировать с составлением запросов.

Midjourney — необычная компания. Её открыл в 2022 году Дэвид Хольц, некогда соучредитель производителя периферии Leap Motion; отличительной чертой стартапа является полное отсутствие внешнего финансирования. В конце 2023 года компания сообщила, что ожидает получить около $200 млн прибыли. В прошлом году Midjourney объявила о наборе сотрудников в проект по разработке оборудования; при этом она продолжала обучение ранее анонсированных моделей для генерации видео и трёхмерных объектов.

Картинки в стиле Ghibli перегрузили серверы OpenAI — выпуск новых функций замедлен

Генеральный директор OpenAI Сэм Альтман (Sam Altman) заявил, что из-за высокой популярности нового инструмента генерации изображений в ChatGPT компания столкнулась с перегрузкой оборудования, из-за чего выход новых продуктов и функций придётся ограничить.

 Источник изображения: Mariia Shalabaieva / Unsplash

Источник изображения: Mariia Shalabaieva / Unsplash

По словам Альтмана, OpenAI пытается справиться с ситуацией, но пользователям следует ожидать как минимум задержек в релизах, а также перебоев в работе сервисов и замедления работы платформы. Тем не менее, как отмечает TechCrunch, компания уверяет, что держит ситуацию под контролем. «Что-то будет ломаться, а обслуживание иногда будет медленным, поскольку мы справляемся с проблемами, связанными с пропускной способностью, — написал Альтман. — Мы стараемся решать проблемы оперативно, чтобы всё действительно работало».

Напомним, выпущенный недавно новый генератор изображений вызвал буквально ажиотаж благодаря способности имитировать различные стили, в частности популярный стиль анимационной студии Studio Ghibli. Однако компания не успевает справляться с наплывом пользователей, а сотрудники вынуждены работать допоздна и даже в выходные, чтобы поддерживать работоспособность системы.

Чтобы снизить нагрузку на свои серверы, OpenAI задержала запуск нового инструмента генерации изображений для бесплатных пользователей ChatGPT, а возможность создания видео с помощью Sora временно отключена для новых пользователей. Компания не уточняет, когда проблемы с перегрузкой будут окончательно решены и пока продолжает работать над улучшением инфраструктуры.

В понедельник ChatGPT зафиксировал регистрацию в сервисе одного миллиона новых пользователей всего за один час. Также отметим, что на сегодня системой пользуются 500 миллионов еженедельных пользователей и 20 миллионов подписчиков, что значительно больше по сравнению с концом 2024 года, когда показатели составляли 300 миллионов и 15,5 миллиона соответственно.

Завирусившийся новый генератор изображений в ChatGPT стал доступен всем пользователям

Новый генератор изображений OpenAI, работающий на базе большой языковой модели GPT-4o, теперь доступен всем пользователям. Об этом на своей странице в социальной сети X написал гендиректор OpenAI Сэм Альтман (Sam Altman). До этого момента использовать новый ИИ-генератор изображений могли только платные подписчики ChatGPT.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Бесплатные пользователи сервиса сейчас могут генерировать не больше двух изображений в сутки. Ранее Альтман упоминал о возможности введения лимита в три изображения в день. Инструмент генерации изображений OpenAI мгновенно стал сверхпопулярным сразу после его запуска в массы. Альтман заявлял, что спрос на генерацию картинок был так высок, что используемые компанией графические ускорители попросту «плавились».

Генератор быстро стал известен тем, что его использовали для преобразования изображений в стиль японской анимационной студии Studio Ghibli. Это вызвало обеспокоенность по поводу нарушения авторских прав, поскольку создаваемые ИИ-генератором изображения были очень похожи на работы студии. Некоторые люди также использовали данный инструмент для создания поддельных квитанций, например, ресторанных счетов. В компании на это заявили, что все сгенерированные ИИ изображения содержат метаданные, указывающие на их происхождение.

Вместе с этим OpenAI заявила о привлечении $40 млрд инвестиций, за счёт чего рыночная стоимость компании составила $300 млрд. В качестве основного инвестора в рамках этого раунда финансирования выступил Softbank. Компания также объявила, что ИИ-бот ChatGPT еженедельно используют более 500 млн человек по всему миру, тогда как количество ежемесячно активных пользователей выросло до 700 млн человек.

Представлен формат изображений Spectral JPEG XL, который эффективно сохранит данные даже о невидимом свете

Учёные Intel разработали формат для записи изображения Spectral JPEG XL — он позволяет записывать данные в широком диапазоне спектра за пределами стандартного набора красного, зелёного и синего. Поддерживаются даже невидимые человеческому глазу участки.

 Источник изображений: jcgt.org

Источник изображений: jcgt.org

В науке и промышленности иногда возникает потребность фиксировать цвета, которые неспособен воспринимать человеческий глаз, например, ультрафиолетовый и инфракрасный участки спектра или определённые длины волн, которые необходимы растениям для фотосинтеза. Некоторые камеры предназначаются, чтобы фиксировать тонкие различия, из-за которых цвета краски выглядят так, как нужно при заданном освещении. Существующие форматы записи такой информации предусматривают запись 30, 100 и более точек данных на пиксель, из-за чего файлы раздуваются до размеров в несколько гигабайтов — они получаются слишком громоздкими для хранения и анализа.

Решение предложили учёные из компании Intel Альбан Фише (Alban Fichet) и Кристоф Питерс (Christoph Peters) — они разработали формат Spectral JPEG XL, способный записывать спектральные данные, но при этом поддерживающий сжатие. Традиционные файлы цифровых изображений записывают информацию всего о трёх цветах: красном, зелёном и синем (RGB). Этого достаточно для повседневных фотографий, но для истинного захвата цвета требуется больший набор деталей. Спектральные изображения отличаются более высокой точностью, потому что регистрируют насыщенность не только в RGB, но и в десятках или даже сотнях узких длин волн. Эта подробная информация охватывает видимый спектр, а также ближние инфракрасный и ультрафиолетовый участки — это позволяет более точно моделировать взаимодействие материалов со светом.

Такие файлы хранят данные не только в трёх каналах RGB — этих каналов оказывается значительно больше, и каждый представляет интенсивность света на определённом, очень узком диапазоне длин волн. В опубликованной авторами проекта научной работе обсуждаются изображения, содержащие 31 канал, приводятся даже примеры с 81 спектральной полосой. Эти каналы должны захватывать более широкий диапазон значений яркости — стандартных 8-битных изображений уже недостаточно, поэтому для каждого канала приходится использовать 16- и 32-битные числа с плавающей запятой.

 Источник изображений: jcgt.org

Существует множество вариантов практического применения этой технологии. Автопроизводителю необходимо точно предсказать, как будет выглядеть краска при разном освещении. Учёные применяют спектральную визуализацию для идентификации материалов по их уникальным световым сигнатурам. Специалистам по рендерингу она требуется для точного моделирования реальных оптических эффектов, например, дисперсии и флуоресценции. Астрономы анализируют спектральные линии излучения от гамма-всплеска, чтобы идентифицировать присутствующие при взрыве вещества. Используемый сегодня для хранения таких данных формат OpenEXR разрабатывался без учёта таких широких требований, а существующие методы сжатия без потерь, такие как ZIP, не позволяют добиться значительного сокращения объёмов данных.

В Spectral JPEG XL применяется метод дискретного косинусного преобразования (ДКП). В упрощённом виде принцип его работы можно объяснить так: при взгляде на цветовые переходы у радуги не нужно записывать каждую длину волны, чтобы понять, что видит человек. ДКП преобразует плавные волновые узоры в волноподобные составляющие (частотные коэффициенты), из которых при сложении воссоздаётся исходная спектральная информация. Схожим образом обрабатывается звук в MP3 — вместо того, чтобы записывать каждую крошечную вибрацию в отдельную звуковую волну, формат фиксирует важные частотные составляющие, которые воспринимаются ухом, а всё остальное отбрасывается. Так и Spectral JPEG XL записывает данные, которые определяют взаимодействие света с материалами, а менее важные детали подвергаются сжатию. Далее осуществляется оценка данных — спектральные коэффициенты делятся на общую яркость, благодаря чему менее важная информация при сжатии повреждается не так сильно. Получившийся поток данных подаётся в кодек, и вместо того, чтобы изобретать новый тип файла, используется стандартный формат изображения JPEG XL, в который записываются специально подготовленные спектральные данные.

На выходе авторам проекта удалось уменьшить размеры спектральных изображений в 10–60 раз по сравнению со стандартным сжатием формата без потерь OpenEXR — по размерам файлы стали сравнимы с обычными высококачественными фотографиями. При этом сохраняются важные функции OpenEXR, в том числе метаданные и поддержка широкого динамического диапазона. Часть информации в процессе сжатия теряется, но формат разработан с расчётом на то, чтобы сначала отбрасывать менее заметные детали — артефакты сжатия возникают на менее важных участках, а важная визуальная информация сохраняется.

Остаются и некоторые ограничения. Spectral JPEG XL сможет широко использоваться при условии постоянной разработки и совершенствования программных инструментов; первоначальные программные реализации могут потребовать дальнейшей разработки, чтобы полностью раскрыть все возможности формата. Принять формат с потерями при сжатии смогут не все — в некоторых областях, где проводятся особо тонкие измерения, может потребоваться дальнейший поиск альтернативных методов хранения данных. На начальном этапе Spectral JPEG XL может оказаться полезным в научной визуализации и высококачественном рендеринге; но многие отрасли от проектирования транспорта до медицинской визуализации продолжают вырабатывать большие объёмы данных, и со временем технологии сжатия могут найти применение и здесь.

«Наши GPU плавятся»: ажиотаж вокруг нового генератора картинок в ChatGPT заставил OpenAI ввести ограничения

Представленная на днях функция 4o Image Generation генерации качественных изображений вызвала огромный интерес у пользователей. Ажиотаж даже вынудил OpenAI «временно» ограничить частоту отправки запросов на генерацию изображений, сообщил в соцсети X гендиректор компании Сэм Альтман (Sam Altman). «Очень забавно наблюдать, как людям нравятся изображения в ChatGPT, но наши графические процессоры плавятся», — отметил он в своём сообщении.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Альтман не уточнил, какой предел скорости был установлен, лишь выразив надежду, что это ограничение не понадобится надолго, поскольку OpenAI пытается повысить эффективность обработки огромного числа запросов.

Высочайший спрос уже заставил компанию отсрочить запуск обновлённого генератора изображений на базе GPT-4o для бесплатных пользователей ChatGPT — Альтман ранее пообещал, что бесплатные пользователи «скоро» смогут генерировать с его помощью до трёх изображений в день. Но, по-видимому, этого оказалось недостаточно, чтобы как-то снизить нагрузку на инфраструктуру OpenAI.

Улучшенный инструмент генерации изображений использует мультимодальную большую языковую модель GPT-4o. Получающиеся с его помощью изображения выглядят качественно, более реалистично и лучше соответствуют запросам. Также имеются успехи в преодолении прошлых проблем, например, с отображением текста. В интервью ресурсу The Verge представитель компании назвал улучшение генерации как «шаговое изменение» по сравнению с предыдущими моделями. Тем не менее возникшие проблемы служат напоминанием о том, сколько технической мощности и энергии требуется для реализации функции генерации изображений в ChatGPT, отметил The Verge.

OpenAI решила попридержать запуск 4o Image Generation для бесплатных пользователей

Компания OpenAI вынуждена перенести сроки предоставления доступа к встроенному генератору изображений в ChatGPT для пользователей бесплатной версии. Сэм Альтман (Sam Altman) в своём сообщении признал, что новый инструмент 4o Image Generation оказался популярнее, чем ожидалось, поэтому развёртывание для бесплатного использования будет отложено на некоторое время, сообщает The Verge.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Новый ИИ-генератор изображений был интегрирован в ChatGPT буквально на днях. С его помощью можно создавать картинки непосредственно в приложении, используя новейшую модель рассуждений GPT-4o. Функция так понравилась пользователям, что они уже вовсю стали делиться в социальных сетях изображениями, в частности, стилизованными под работы студии Ghibli, — тренд, к которому присоединился даже сам Альтман.

По словам разработчиков, 4o Image Generation отличается улучшенным рендерингом текста и использует для генерации изображений так называемый авторегрессионный подход, когда изображение создаётся последовательно, слева направо и сверху вниз, а не одномоментно целиком, что позволяет создавать картинки без каких-либо ошибок или искажений в тексте, чего раньше добиться в других генераторах не удавалось.

В настоящее время доступ к функции имеют только подписчики платных тарифов ChatGPT Plus, Pro и Team. Когда именно пользователи бесплатной версии смогут опробовать новый ИИ-генератор, пока не совсем ясно из-за неожиданно высокого спроса на эту функцию.

OpenAI представила функцию генерации точных изображений в ChatGPT на базе GPT-4o — она доступна бесплатно

OpenAI встроила функцию генерации точных изображений непоcредственно в ChatGPT. Новая функция, именуемая 4o Image Generation, опирается на мультимодальную большую языковую модель GPT-4o. Она понимает контекст, сложные инструкции, взаимодействия объектов и даже генерирует текстовые надписи без артефактов. Доступ для всех откроют сегодня.

 Источник изображения: OpenAI

Источник изображений: OpenAI

ChatGPT и прежде умел генерировать изображения с помощью нейросети Dall-E 3. Однако обновлённая функция работает куда лучше и точнее. Представитель OpenAI Тайя Кристиансон (Taya Christianson) уточнила, что лимиты для бесплатных пользователей останутся такими же, как у DALL-E, то есть три изображения в день. Доступ к DALL-E по-прежнему возможен через пользовательский интерфейс ChatGPT.

Как отметил глава исследований Габриэль Го (Gabriel Goh), использование GPT-4o позволяет ИИ работать с любыми типами данных — текстом, изображениями, аудио и видео. Кроме того, Sora получила ключевое улучшение, заключающееся в корректном соотношении атрибутов и объектов (binding). Го объяснил, что большинство ИИ путаются при обработке 5–8 элементов. Например, ИИ может получить запрос нарисовать синюю звезду и красный треугольник, но создать красную звезду и нечто отличное от треугольника. 4o Image Generation справляется с 15–20 объектами без ошибок.

 Источник изображения: OpenAI

Пользователи также заметят улучшение в отрисовке текста, что позволяет генерировать на изображениях читаемый текст без опечаток. В существующих инструментах для генерации изображений текст часто искажался и достижение качественного рендеринга в этом смысле было серьёзной проблемой, так как даже небольшие ошибки в заголовках или текстовых элементах могут сделать всё изображение полностью непригодным.

 Генерация по запросу «сделайте очень красочную ризографию о том, как приготовить матча» (make a very colorful risograph on how to make matcha)

Генерация по запросу «Cделай очень красочную ризографию о том, как приготовить матча» (make a very colorful risograph on how to make matcha)

Система также использует теперь нестандартный метод генерации. Изображения создаются последовательно, слева направо и сверху вниз, а не целиком, как это происходит в DALL-E. По мнению Го, это объясняет превосходство 4o Image Generation в работе с текстом и сложными сценами.

OpenAI продемонстрировала возможности 4o Image Generation на научных диаграммах, например, эксперимент Ньютона с призмой, комиксах и постерах. Также были показаны практические применения в создании изображений с прозрачным фоном для стикеров, меню ресторанов и логотипов. 4o Image Generation со всеми заданиями справилась успешно, не допустив в тексте никаких ошибок.

Также 4o Image Generation способен редактировать загруженные пользователем изображения по простым запросам, добавляя на них элементы или наоборот убирая.

 Пример добавление элементов на фотографию с помощью GPT-4o

Пример добавление элементов на фотографию с помощью GPT-4o

Однако новая система генерирует изображения дольше, чем предыдущие, но OpenAI считает это оправданным компромиссом. «Хотя у нас определённо есть возможности для улучшения времени отклика, качество этих изображений, возможности, знание о мире действительно компенсируют дополнительные секунды ожидания», — сказали в компании.

 Источник изображения: OpenAI

Отвечая на вопросы о мерах безопасности, упоминая скандальные дипфейки Тейлор Свифт (Taylor Swift), созданные с помощью модели Microsoft, способность Grok от xAI изобразить Камалу Харрис (Kamala Harris) с оружием и удаление водяных знаков в Google Gemini, команда OpenAI подчеркнула наличие надёжных механизмов защиты от злоупотреблений.

Директор по дизайну OpenAI Шеннон Джагер (Jackie Shannon) заявила, что инструмент предотвращает удаление водяных знаков, блокирует генерацию дипфейков, связанных с телом человека и отказывает в запросах на создание материалов с различным родом насилия над детьми (CSAM). Кроме того, Шеннон пояснила, что все сгенерированные изображения будут включать стандартные метаданные C2PA, чтобы отметить изображение как созданное OpenAI.

ИИ-модель Google Gemini 2.0 Flash оказалась на удивление хороша в удалении водяных знаков с изображений

Некоторые новейшие «экспериментальные» функции модели Gemini 2.0 Flash от Google вызывают нешуточные опасения у многих пользователей. В частности, модель показала «очень качественные» результаты при удалении водяных знаков с изображений.

 Источник изображений: Google

Источник изображений: Google

Gemini 2.0 Flash умеет не только генерировать изображения по текстовому запросу, но и редактировать их в соответствии с указаниями пользователя — примеры опубликованы на Reddit. На днях обнаружилось, что модель с высокой точностью может удалять водяные знаки. Это поведение радикально отличается от модели GPT-4o от OpenAI, которая запросы на удаление водяных знаков отклоняет.

Ранее уже существовали такие инструменты, как Watermark Remover.io, который умеет удалять водяные знаки со стоковых фотографий, а исследовательская группа Google создала в 2017 году подобный алгоритм, чтобы подчеркнуть необходимость более надёжной защиты авторских прав на изображения.

Gemini 2.0 Flash, похоже, лучше всех проявила себя при удалении сложных водяных знаков, такие как штампы Getty Images, и смогла качественно восстановить изображение. Конечно, после удаления водяного знака модель добавляет метку SynthID, фактически заменяя знак авторского права на «отредактировано с помощью ИИ». Но метки ИИ довольно легко удаляются при помощи другого ИИ, что ранее было продемонстрировано инструментом стирания объектов от Samsung.

По сообщениям пользователей, облегчённая Gemini 2.0 Flash также умеет добавлять узнаваемые изображения реальных людей на фотографии, чего не позволяет полная модель Gemini.

На данный момент описанные возможности доступны только разработчикам через AI Studio — общедоступный бот Gemini отказывается убирать защитные знаки, как показано на скриншоте выше. Google не ответила на запросы о наличии защиты от возможных злоупотреблений после выхода модели в открытый доступ.


window-new
Soft
Hard
Тренды 🔥
«Прощай на следующие 12 лет, реальная жизнь»: Paradox анонсировала амбициозную глобальную стратегию Europa Universalis V 17 мин.
Microsoft упростит установку приложений в Windows 11, но это может привести к засорению системы 41 мин.
Первое сюжетное дополнение к Kingdom Come: Deliverance 2 не заставит себя долго ждать — новый трейлер и дата выхода Brushes with Death 2 ч.
Meta наделит следующие умные очки Ray-Ban «супервосприятием» — функцией распознавания лиц окружающих 4 ч.
Первый геймплейный трейлер подтвердил дату выхода Mafia: The Old Country — игру будут продавать за $50 4 ч.
ИИ-боты начинают чаще привирать, когда их просят о лаконичных ответах — исследование 5 ч.
Перенос GTA VI прибавил Electronic Arts уверенности в успехе новой Battlefield 5 ч.
Apple начала принимать заявки на компенсации по иску о подслушивании Siri 6 ч.
Saber Interactive «выкатила» системные требования амбициозного симулятора RoadCraft 8 ч.
Microsoft отстояла сделку века: Activision Blizzard остаётся в империи Xbox 10 ч.
Lenovo возродила 3D-гейминг — представлен ноутбук Legion 9i с RTX 5090, безочковым 3D-экраном и крышкой из кованного углеволокна 28 мин.
Razer выпустила компактные игровые мышь Basilisk Mobile и клавиатуру Joro для мобильного гейминга 45 мин.
Alienware представила тонкие и доступные геймерские ноутбуки Aurora 16 и 16X в сдержанном дизайне 4 ч.
Cadence представила суперкомпьютер Millennium M2000 на базе NVIDIA Blackwell 4 ч.
Synology выпустила сетевые хранилища DiskStation DS1825+ и DS1525+ на базе AMD Ryzen V1500B 4 ч.
IBM представила сервер LinuxONE Emperor 5 на платформе Telum II для ИИ-задач 4 ч.
Nvidia оставила прессу без драйвера для GeForce RTX 5060 — так обзоры не испортят старт продаж 5 ч.
Поставки OLED-мониторов за год взлетели на 175 % — Asus наступает на пятки лидирующей Samsung 6 ч.
Arctic представила доступные башенные кулеры Freezer 8, заточенные под современные AMD Ryzen и Intel Core 7 ч.
OpenAI намерена развивать «демократический ИИ» за пределами США в рамках мегапроекта Stargate 7 ч.