«Сбер» представил на конференции AI Journey обновлённую генеративную модель искусственного интеллекта Kandinsky 3.0, предназначенную для создания изображений. Она научилась лучше понимать текстовые запросы пользователей, стала генерировать более фотореалистичные изображения, художественные картины и наброски.
Одним из важнейших нововведений Kandinsky 3.0 стало обучение нейросети элементам отечественного культурного кода — это коснулось советских и российских знаменитостей и персонажей, архитектурных достопримечательностей, культурных объектов и объектов народного творчества: в частности, нейросеть знакома с гжелью. Разработчик усовершенствовал функцию редактирования изображения и возможность дорисовки картины в режиме бесконечного полотна.
По умолчанию Kandinsky 3.0 генерирует картинки c разрешением 1024 × 1024 пикселей, но есть возможность выбрать другое соотношение сторон. При обучении разработчик использовал массив из 1,5 млрд пар изображений с текстовыми описаниями. Нейросеть также получила поддержку генерации 4-секундных видеороликов по текстовому описанию — они имеют разрешение 640 × 640 пикселей с частотой 24 кадра в секунду. Генерация одной секунды видео занимает примерно 20 секунд. Модели анимации включают перемещения объектов, их приближение, удаление и другие приёмы. Основу алгоритма составляет перерисовка изображения по текстовому описанию.
Поработать с моделью Kandinsky 3.0 можно на платформе fusionbrain.ai, на сайте rudalle.ru, при помощи ботов в Telegram и «ВКонтакте», в переписке с чат-ботом GigaChat, в приложениях «СберБанк Онлайн» и «Салют», а также в умных устройствах от «Сбера» по команде «запусти художника». Доступ к созданию анимации в Telegram производится по предварительной заявке.
Источник: