Сегодня 18 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Анонсирована Stable Diffusion 3.0 — ИИ для рисования сменил архитектуру и научился писать

Компания Stability AI выпустила предварительную версию Stable Diffusion 3.0 — флагманской модели искусственного интеллекта следующего поколения для генерации изображений по текстовому описанию. Stable Diffusion 3.0 будет доступна в разных версиях на базе нейросетей размером от 800 млн до 8 млрд параметров.

 Источник изображений: Stable Diffusion 3.0

Источник изображений: Stable Diffusion 3.0

В течение последнего года компания Stability AI постоянно совершенствовала и выпускала несколько нейросетей, каждая из которых показывала растущий уровень сложности и качества. Выпуск SDXL в июле значительно улучшил базовую модель Stable Diffusion, и теперь компания собирается пойти значительно дальше.

Новая модель Stable Diffusion 3.0 призвана обеспечить улучшенное качество изображения и лучшую производительность при создании изображений из сложных подсказок. Новая нейросеть обеспечит значительно лучшую типографику, чем предыдущие версии Stable Diffusion, обеспечивая более точное написание текста внутри сгенерированных изображений. В прошлом типографика была слабой стороной Stable Diffusion, собственно, как и многих других ИИ-художников.

Stable Diffusion 3.0 — это не просто новая версия модели прежней Stability AI, ведь она основана на новой архитектуре. «Stable Diffusion 3 – это диффузионная модель-трансформер, архитектура нового типа, которая аналогична той, что используется в представленной недавно модели OpenAI Sora, — рассказал VentureBeat Эмад Мостак (Emad Mostaque), генеральный директор Stability AI. — Это настоящий преемник оригинальной Stable Diffusion».

Stability AI экспериментирует с несколькими типами подходов к созданию изображений. Ранее в этом месяце компания выпустила предварительную версию Stable Cascade, которая использует архитектуру Würstchen для повышения производительности и точности. Stable Diffusion 3.0 использует другой подход, используя диффузионные модели-трансформеры. «Раньше у Stable Diffusion не было трансформера», — сказал Мостак.

Трансформеры лежат в основе большей части современных нейросетей, запустивших революцию в области искусственного интеллекта. Они широко используются в качестве основы моделей генерации текста. Генерация изображений в основном находилась в сфере диффузионных моделей. В исследовательской работе, в которой подробно описываются диффузионные трансформеры (DiT), объясняется, что это новая архитектура для диффузионных моделей, которая заменяет широко используемую магистраль U-Net трансформером, работающим на скрытых участках изображения. Применение DiT позволяет более эффективно использовать вычислительные мощности и превосходить другие подходы к диффузной генерации изображений.

Еще одна важная инновация, которой пользуется Stable Diffusion 3.0 — это согласование потоков. В исследовательской работе по сопоставлению потоков объясняется, что это новый метод обучения нейросетей с помощью «непрерывных нормализующих потоков» (Conditional Flow Matching — CNF) для моделирования сложных распределений данных. По мнению исследователей, использование CFM с оптимальными путями транспортировки приводит к более быстрому обучению, более эффективному отбору образцов и повышению производительности по сравнению с диффузионными путями.

Улучшенная типографика в Stable Diffusion 3.0 является результатом нескольких улучшений, которые Stability AI встроил в новую модель. Как пояснил Мостак, качественная генерация текстов на изображения стала возможной благодаря использованию диффузионной модели-трансформера и дополнительных кодировщиков текста. С помощью Stable Diffusion 3.0 стало возможным генерировать на изображениях полные предложения со связным стилем написания текста.

Хотя Stable Diffusion 3.0 изначально демонстрируется как технология искусственного интеллекта для преобразования текста в изображение, она станет основой для гораздо большего. В последние месяцы Stability AI также создаст нейросети для создания 3D-изображений и видео.

«Мы создаем открытые модели, которые можно использовать где угодно и адаптировать к любым потребностям, — сказал Мостак. — Это серия моделей разных размеров, которая послужит основой для разработки наших визуальных моделей следующего поколения, включая видео, 3D и многое другое».

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Electronic Arts и Codemasters анонсировали переосмысление симуляторов «Формулы-1» — F1 26 не будет 51 мин.
AMD представит технологию FSR Redstone с реконструкцией лучей и не только 10 декабря 2 ч.
Спасение галактики, истребление пауков и многое другое: Microsoft раскрыла, какие игры пополнят Game Pass в конце ноября и начале декабря 3 ч.
Спустя 7 лет после запуска и через 18 лет после Steam в Epic Games Store появилась возможность дарить игры друзьям 4 ч.
Генпрокуратура признала нежелательной деятельность разработчиков S.T.A.L.K.E.R. 2: Heart of Chornobyl на территории России 5 ч.
Alibaba выпустила ИИ-бота Qwen — будущего конкурента ChatGPT 5 ч.
Евросоюз рассматривает необходимость ограничения возможностей американских облачных гигантов 6 ч.
Roblox скоро начнёт разделять пользователей по возрасту — грядёт обязательная верификация 6 ч.
ИИ-агент в Windows 11 сможет загружать вирусы, предупредила Microsoft 6 ч.
ИИ сохранит ценность, даже если пузырь лопнет — но достанется всем, считает глава Google 9 ч.
Электролёт Joby Aviation впервые взлетел в небо Дубая — пассажиров начнут возить в 2026 году по тарифу Uber Black 2 ч.
Роботакси Zoox без руля и педалей начнут перевозить обычных пассажиров в Сан-Франциско 3 ч.
Американский стартап стал ближе к запуску «бюджетных» термоядерных реакторов, заинтересовавших даже Билла Гейтса 4 ч.
Представлен стандарт связи Zigbee 4.0 для умного дома — расширенное покрытие, пакетная настройка и работа без концентратора 4 ч.
Илон Маск хочет на порядок больше ИИ-чипов, чем выпускает вся полупроводниковая индустрия мира 5 ч.
Apple N1 сравнили с сетевыми чипами Android-флагманов: чуть медленнее, но намного стабильнее 5 ч.
InWin выпустила корпус Dlite с премиальным дизайном и четвёркой ARGB-вентиляторов в комплекте 5 ч.
Oracle подешевела на $374 млрд после заключения сделки с OpenAI на $300 млрд 5 ч.
Бывший гендир Intel Пэт Гелсингер рассказал, как его инициалы появились на каждом процессоре i386 5 ч.
d-Matrix привлекла ещё $275 млн и объявила о разработке первого ИИ-ускорителя с 3D-памятью Raptor 6 ч.