«Сбер» представил Kandinsky — ИИ-модель для генерации изображений по текстовому описанию на русском языке

«Cбер» анонсировал Kandinsky — самую мощную на данный момент модель генерации изображений по текстовому описанию на русском языке, основанную на мультимодальной нейросети ruDALL-E, с помощью которой можно создавать различные виды изображений, включая иллюстрации, материалы для рекламных кампаний, архитектурного и промышленного дизайна, а также дизайна в области цифрового искусства.

Источник изображения: Сбер

В ноябре прошлого года были выложены в открытый доступ код и параметры модели ruDALL-E XL, содержащей 1,3 млрд параметров, а также был разработан сервис генерации изображений. В этом же месяце была представлена эксклюзивная модель ruDALL-E XXL c 12 млрд параметров, которую специалисты Sber AI и SberDevices существенно улучшили, дообучив её на 179 млн изображений, снабжённых текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo.

Созданная в результате дообучения модель Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также поддерживает в дополнение к стандартному подходу с использованием Real-ESRGAN способ повышения разрешения картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1. Благодаря этому модель может создавать более реалистичные изображения, отображая различные текстуры, тени и отражения.

Процесс создания изображений с помощью модели Kandinsky проходит в три этапа. Сначала одна нейросеть (непосредственно Kandinsky) на основе текстового описания генерирует заданное число изображений. Затем вторая нейросеть (ruCLIP Large) выбирает из них наиболее соответствующие заданному текстовому описанию картинки, после чего третья увеличивает их в размере, используя или диффузионный способ, или Real-ESRGAN. В итоге получается набор сгенерированных изображений высокого качества. По сравнению с предыдущими версиями модель Kandinsky обеспечивает более высокую степень детализации изображений.

Модель Kandinsky доступна в мобильном приложении «Салют», на умных устройствах Sber по запросу «Включи художника».

По словам Александра Ведяхина, первого заместителя председателя правления «Сбера», модель Kandinsky способна более точно сравнивать и анализировать различные изображения, чтобы создавать настоящие живописные картины. Предполагается, что одним из одним из главных бенефициаров новой технологии станет бизнес.