Сегодня 18 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Анонсирована Stable Diffusion 3.0 — ИИ для рисования сменил архитектуру и научился писать

Компания Stability AI выпустила предварительную версию Stable Diffusion 3.0 — флагманской модели искусственного интеллекта следующего поколения для генерации изображений по текстовому описанию. Stable Diffusion 3.0 будет доступна в разных версиях на базе нейросетей размером от 800 млн до 8 млрд параметров.

 Источник изображений: Stable Diffusion 3.0

Источник изображений: Stable Diffusion 3.0

В течение последнего года компания Stability AI постоянно совершенствовала и выпускала несколько нейросетей, каждая из которых показывала растущий уровень сложности и качества. Выпуск SDXL в июле значительно улучшил базовую модель Stable Diffusion, и теперь компания собирается пойти значительно дальше.

Новая модель Stable Diffusion 3.0 призвана обеспечить улучшенное качество изображения и лучшую производительность при создании изображений из сложных подсказок. Новая нейросеть обеспечит значительно лучшую типографику, чем предыдущие версии Stable Diffusion, обеспечивая более точное написание текста внутри сгенерированных изображений. В прошлом типографика была слабой стороной Stable Diffusion, собственно, как и многих других ИИ-художников.

Stable Diffusion 3.0 — это не просто новая версия модели прежней Stability AI, ведь она основана на новой архитектуре. «Stable Diffusion 3 – это диффузионная модель-трансформер, архитектура нового типа, которая аналогична той, что используется в представленной недавно модели OpenAI Sora, — рассказал VentureBeat Эмад Мостак (Emad Mostaque), генеральный директор Stability AI. — Это настоящий преемник оригинальной Stable Diffusion».

Stability AI экспериментирует с несколькими типами подходов к созданию изображений. Ранее в этом месяце компания выпустила предварительную версию Stable Cascade, которая использует архитектуру Würstchen для повышения производительности и точности. Stable Diffusion 3.0 использует другой подход, используя диффузионные модели-трансформеры. «Раньше у Stable Diffusion не было трансформера», — сказал Мостак.

Трансформеры лежат в основе большей части современных нейросетей, запустивших революцию в области искусственного интеллекта. Они широко используются в качестве основы моделей генерации текста. Генерация изображений в основном находилась в сфере диффузионных моделей. В исследовательской работе, в которой подробно описываются диффузионные трансформеры (DiT), объясняется, что это новая архитектура для диффузионных моделей, которая заменяет широко используемую магистраль U-Net трансформером, работающим на скрытых участках изображения. Применение DiT позволяет более эффективно использовать вычислительные мощности и превосходить другие подходы к диффузной генерации изображений.

Еще одна важная инновация, которой пользуется Stable Diffusion 3.0 — это согласование потоков. В исследовательской работе по сопоставлению потоков объясняется, что это новый метод обучения нейросетей с помощью «непрерывных нормализующих потоков» (Conditional Flow Matching — CNF) для моделирования сложных распределений данных. По мнению исследователей, использование CFM с оптимальными путями транспортировки приводит к более быстрому обучению, более эффективному отбору образцов и повышению производительности по сравнению с диффузионными путями.

Улучшенная типографика в Stable Diffusion 3.0 является результатом нескольких улучшений, которые Stability AI встроил в новую модель. Как пояснил Мостак, качественная генерация текстов на изображения стала возможной благодаря использованию диффузионной модели-трансформера и дополнительных кодировщиков текста. С помощью Stable Diffusion 3.0 стало возможным генерировать на изображениях полные предложения со связным стилем написания текста.

Хотя Stable Diffusion 3.0 изначально демонстрируется как технология искусственного интеллекта для преобразования текста в изображение, она станет основой для гораздо большего. В последние месяцы Stability AI также создаст нейросети для создания 3D-изображений и видео.

«Мы создаем открытые модели, которые можно использовать где угодно и адаптировать к любым потребностям, — сказал Мостак. — Это серия моделей разных размеров, которая послужит основой для разработки наших визуальных моделей следующего поколения, включая видео, 3D и многое другое».

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
С каждым годом переносить эксклюзивы PlayStation на ПК для Sony становится всё выгоднее 30 мин.
Градостроительная стратегия Frostpunk 2 вышла на консолях, а версия для ПК получила полную поддержку геймпадов 42 мин.
Split Fiction стала первой в истории игрой, удостоившейся престижной премии «Выдающийся шведский дизайн» — награду вручил принц Швеции 2 ч.
Энтузиасты докопались до причин лагов и статтеров на ноутбуках Asus ROG — виноваты ошибки в BIOS 2 ч.
Китай прекратил антимонопольное расследование по Google, чтобы бросить все силы против Nvidia 4 ч.
Microsoft обновила «Блокнот», «Ножницы» и Paint в Windows 11 на компьютерах Copilot+ PC 4 ч.
Ставленники Маска создали в xAI «душную» атмосферу — это подрывает боевой дух разработчиков 5 ч.
Valve объявила, когда Steam лишится поддержки 32-разрядной Windows 10 5 ч.
Meta представила редактор виртуальных миров Horizon Studio — метавселенная ускорится и похорошеет 5 ч.
«Настоящая» детективная RPG от экс-разработчиков Disco Elysium сменила название и не только — геймплейный трейлер и скриншоты Tangerine Antarctic 6 ч.
Oracle добавит ИИ-сервисы в облако UK Sovereign Cloud в рамках инвестиционного плана на $5 млрд 4 мин.
Стартап Carbon3.ai намерен развернуть в Великобритании экологичную суверенную ИИ-инфраструктуру 2 ч.
Intel разработает для NVIDIA кастомные CPU для серверов и ПК, а NVIDIA вложит в Intel $5 млрд 3 ч.
DJI столкнулась с бойкотом со стороны американских чиновников — рынок США закрывается для компании 3 ч.
Hayabusa2 может не суметь взять пробы с астероида 1998 KY26: учёные обсчитались с размерами тела 3 ч.
Giga Computing представила флагманский ИИ-сервер на базе NVIDIA HGX B300 3 ч.
Logitech представила игровую мышь G Pro X2 Superstrike с индуктивными кнопками и обратной связью 4 ч.
Ryzen 7 9800X3D на материнской плате Gigabyte разогнали до 7,3 ГГц — это рекорд для этого процессора 4 ч.
Huawei раскрыла планы по выпуску ИИ-ускорителей Ascend 4 ч.
Xenium X718 — кнопочный мобильный телефон с высокой автономностью и док-станцией 5 ч.