Сегодня 27 февраля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → kandinsky

«Сбер» представил нейросеть Kandinsky Video — она генерирует 8-секундные видео по текстовому описанию

«Сбер» представил нейросеть Kandinsky Video, способную создавать небольшие ролики по текстовому описанию. Алгоритм генерирует видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду. Новинка была презентована в рамках конференции AI Journey первым заместителем председателя правления «Сбербанка» Александром Ведяхиным.

 Источник изображения: sberbank.com

Источник изображения: sberbank.com

Архитектура Kandinsky Video включает в себя два основных блока. Первый блок отвечает за генерацию ключевых кадров, используемых для создания структуры сюжета видео, а второй — генерирует интерполяционные кадры, за счёт чего достигается плавность движения в финальном ролике. Оба блока построены на базе модели синтеза изображений по текстовым описаниям Kandinsky 3.0.

В конечном счёте алгоритм создаёт видео с движением как объекта, так и фона. Это отличает сгенерированные нейросетью видео от анимационных роликов, в которых динамика достигается за счёт моделирования полёта камеры относительно статичной сцены. В настоящее время Kandinsky Video может создавать видео с разрешением 512 × 512 пикселей и разным соотношением сторон. Для обучения алгоритма использовался датасет из более чем 300 тыс. пар «текст-видео». Сам же процесс генерации ролика занимает до 3 минут.

Отмечается, что ранее некоторые пользователи нейросети Kandinsky 2.2 в тестовом режиме получили доступ к функции создания анимационных роликов. Всего одного запроса достаточно для генерации видео продолжительностью до 4 секунд с выбранными эффектами анимации, частотой 24 кадра в секунду и разрешением 640 × 640 пикселей. Пользователи новой версии Kandinsky 3.0 также могут генерировать ролики по текстовому описанию в режиме анимации.

«Сбер» представил ИИ-художника Kandinsky 3.0 — он стал точнее и изучил отечественный культурный код

«Сбер» представил на конференции AI Journey обновлённую генеративную модель искусственного интеллекта Kandinsky 3.0, предназначенную для создания изображений. Она научилась лучше понимать текстовые запросы пользователей, стала генерировать более фотореалистичные изображения, художественные картины и наброски.

 Источник изображений: sberbank.com

Источник изображений: sberbank.com

Одним из важнейших нововведений Kandinsky 3.0 стало обучение нейросети элементам отечественного культурного кода — это коснулось советских и российских знаменитостей и персонажей, архитектурных достопримечательностей, культурных объектов и объектов народного творчества: в частности, нейросеть знакома с гжелью. Разработчик усовершенствовал функцию редактирования изображения и возможность дорисовки картины в режиме бесконечного полотна.

По умолчанию Kandinsky 3.0 генерирует картинки c разрешением 1024 × 1024 пикселей, но есть возможность выбрать другое соотношение сторон. При обучении разработчик использовал массив из 1,5 млрд пар изображений с текстовыми описаниями. Нейросеть также получила поддержку генерации 4-секундных видеороликов по текстовому описанию — они имеют разрешение 640 × 640 пикселей с частотой 24 кадра в секунду. Генерация одной секунды видео занимает примерно 20 секунд. Модели анимации включают перемещения объектов, их приближение, удаление и другие приёмы. Основу алгоритма составляет перерисовка изображения по текстовому описанию.

Поработать с моделью Kandinsky 3.0 можно на платформе fusionbrain.ai, на сайте rudalle.ru, при помощи ботов в Telegram и «ВКонтакте», в переписке с чат-ботом GigaChat, в приложениях «СберБанк Онлайн» и «Салют», а также в умных устройствах от «Сбера» по команде «запусти художника». Доступ к созданию анимации в Telegram производится по предварительной заявке.

«Сбер» запретил ИИ-художнику Kandinsky генерировать изображения с государственной символикой

«Сбер» скорректировал работу нейросети Kandinsky 2.1 после вызова сотрудников компании в прокуратуру из-за генерации изображения на флаге России. Об этом сообщил председатель правления Сбербанка Герман Греф на пленарной сессии форума Finopolis 2023.

 Источник изображений: sberbank.com

Источник изображений: sberbank.com

Греф рассказал, что вскоре после запуска ИИ-алгоритма сотрудников «Сбера» вызвали в прокуратуру. Поводом для этого стало обращение депутатов Госдумы после того, как нейросеть нарисовала на государственном флаге России купола собора Василия Блаженного. «Депутаты посчитали, что это издевательство над нашими национальными флагами. Соответственно, мы тут же остановились. Определённые вещи — символы государственные и прочее — она не генерирует уже», — сообщил Герман Греф.

Теперь алгоритм Kandinsky 2.1 по запросу пользователя выдаёт заранее заданное изображение без добавления к нему каких-либо иных элементов на его основе. «Но при этом она теряет в генерации», — отметил топ-менеджер Сбербанка, добавив, что в течение полугода «Сбер» корректировал настройки нейросети, из-за чего доступная широкому кругу пользователей версия алгоритма «потеряла 12 % в креативности и точности».

Господин Греф также сказал, что при развитии технологий на основе искусственного интеллекта компаниям требуются, прежде всего, «снисхождение и понимание» со стороны органов власти. Что касается разбирательства в прокуратуре, то оно закончилось без последствий для банка. «Хорошо, что прокурор современный попался, с чувством юмора: он всё изучил, слава богу, нас никуда не привлекли», — резюмировал Греф.

«Сбер» научил нейросеть Kandinsky генерировать стикеры и фотореалистичные изображения и портреты

«Сбер» представил новую версию своей нейросети для генерации изображений по текстовому описанию — Kandinsky 2.2, которая позволит создавать фотореалистичные изображения с более высоким разрешением и изменять соотношение сторон при генерации, а также обеспечит значительный прирост качества при создании портретов.

 Генерация Kandinsky 2.2           Источник изображений: «Сбер»

Генерация Kandinsky 2.2. Источник изображений: «Сбер»

Для дообучения Kandinsky 2.2 использовался набор данных из 1,5 млрд пар «текст — изображение», что на 300 млн больше, чем для предыдущей версии — Kandinsky 2.1, вышедшей в апреле этого года и набравшей всего за 6 дней 2 млн пользователей.

Новую версию модели научили создавать стикеры, из которых можно собирать полноценные стикерпаки в Telegram. Также благодаря внедрению специального структурного блока управляемых изменений ControlNetона она получила способность изменять по текстовому описанию отдельные объекты или элементы на изображениях, сохраняя при этом композицию исходной иллюстрации.

 Генерация Kandinsky 2.2

Генерация Kandinsky 2.2

Согласно пресс-релизу, Kandinsky 2.2 понимает запросы на русском и английском языках, обладает способностью рисовать более чем в 20 стилях, смешивать несколько рисунков, стилизовать изображение по текстовому описанию, генерировать изображения, похожие на заданные, а также дорисовывать недостающие части картинки (inpainting) и создавать картины в режиме бесконечного полотна (outpainting).

 Стикерпак от Kandinsky 2.2

Стикерпак от Kandinsky 2.2

«Нейросеть уже не просто пытается подражать творчеству человека, а способна создавать новые художественные смыслы и интерпретации», — сообщил первый зампред правления Сбербанка Александр Ведяхин, добавив, что, как и предыдущая версия, Kandinsky 2.2 находится в открытом доступе, и протестировать её можно совершенно бесплатно.

Сообщается, что ознакомиться с возможностями Kandinsky 2.2 можно на промостранице модели, на платформе FusionBrain.AI, в Telegram-боте и боте соцсети «ВКонтакте», а также при помощи команды «Запусти художника» на умных устройствах Sber, в мобильном приложении Салют. Модель доступна на платформе ML Space в хабе предобученных моделей и датасетов DataHub.

Разработкой и обучением нейросети занимались исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.

2 млн пользователей за 6 дней: нейросеть «Сбера» Kandinsky 2.1 оказалась среди самых быстрорастущих сервисов мира

Стало известно, что бесплатная генеративная модель Kandinsky 2.1, презентация которой состоялась ранее в этом месяце, стала одним из самых быстрорастущих сервисов искусственного интеллекта в мире. Она способна генерировать красочные картинки по текстовому описанию пользователя, а также поддерживает возможность создания работ в разных стилях.

Результат работы алгоритма Kandinsky 2.1 по запросу

Результат работы алгоритма Kandinsky 2.1 по запросу «современный художник за работой»

Разработчики сообщили, что алгоритму Kandinsky 2.1 потребовалось всего четыре дня, чтобы достичь отметки в 1 млн уникальных пользователей. Любопытно, что это на один день быстрее результата чат-бота ChatGPT компании Open AI. Согласно имеющимся данным, с момента запуска алгоритма было сгенерировано свыше 10 млн изображений, а число уникальных пользователей достигло 2 млн человек. Также отмечается, что на прошлой неделе алгоритм Kandinsky 2.1 попал в топ-5 трендов мировых репозиториев по версии сервиса GitHub.

Напомним, алгоритм Kandinsky 2.1 может генерировать изображения по их текстовому описанию на естественном языке. Модель поддерживает обработку запросов на 101 языке и готова открыть для пользователей новые творческие возможности, включая смешивание нескольких рисунков, дорисовку изображений, создание картин в режиме бесконечного полотна и др. Разработкой и обучением алгоритма занимались специалисты Sber AI совместно с учёными из Института искусственного интеллекта AIRI на объединённом дата-сете Sber AI и компании SberDevices. Kandinsky 2.1 содержит 3,3 млрд параметров вместо 2 млрд параметров в предыдущей версии алгоритма.

«Сбер» запустил нейросеть Kandinsky 2.1 — она генерирует изображения по описанию на русском и других языках

Разработчики из «Сбера» представили новую версию нейросети Kandinsky, которая является отечественным аналогом популярного алгоритма Midjourney. Генеративная модель Kandinsky 2.1 может использоваться для создания высококачественных изображений на основе текстового описания, дорисовки картинок и др. Нейросеть доступна всем желающим

 Источник изображений: sberbank.com

Источник изображений: sberbank.com

«Новая генеративная модель "Сбера" — Kandinsky 2.1 — способна всего за несколько секунд создавать высококачественные изображения по текстовому описанию на естественном языке. Она также может смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна (inpainting/outpainting). Модель понимает запросы на 101 языке (включая русский и английский) и умеет рисовать в различных стилях», — сказано в сообщении «Сбера».

Разработкой и обучением алгоритма занимались специалисты Sber AI совместно с учёными из Института искусственного интеллекта AIRI, задействовав для этого объединённый датасет Sber AI и SberDevices. Модель Kandinsky 2.1 является усовершенствованной версией предыдущей версии алгоритма, которая была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения. В дополнение к этому алгоритм дополнительно обучался на отдельном датасете из двух миллионов пар качественных изображений. Этот датасет состоял из изображений с описаниями в сложных для нейросетей областях, таких как тексты и лица людей.

Представленный алгоритм усовершенствован за счёт новой модели автоэнкодера, используемой в том числе в качестве декодера векторных представлений изображений. За счёт этого удалось кардинально улучшить генерацию изображений в высоком разрешении. Модель Kandinsky 2.1 содержит 3,3 млрд параметров, что значительно больше по сравнению с 2 млрд параметров модели Kandinsky 2.0. Алгоритм использует закодированное текстовое описание и специальное представление изображения моделью CLIP. Он способен визуализировать любой контент и может применяться в разных отраслях.

Пользователи могут оценить возможности Kandinsky 2.1 на промо-странице, а также воспользовавшись командой «Запусти художника» на устройствах Sber, в мобильном приложении «Салют» и на платформе ML Space. Ещё нейросеть доступна через бота в Telegram. Правда, при попытке воспользоваться ею, через несколько минут появилось сообщение: «Произошла ошибка при работе модели:( Попробуй, пожалуйста, еще раз».


window-new
Soft
Hard
Тренды 🔥
Micron начала массовое производство памяти HBM3E для ускорителей NVIDIA H200 12 мин.
ASRock Rack представила MECAI-GH200 — самый компактный в мире сервер с суперчипом NVIDIA GH200 13 мин.
Infinix показала концепт смартфона-хамелеона с изменчивой задней крышкой 22 мин.
Фирменные магазины LG, Bosch и Sony в России распродают остатки и закрываются 51 мин.
Из памяти умирающего на Луне «Одиссея» извлечено несколько мутноватых снимков, которые признали успехом 2 ч.
Легендарный Джим Келлер поможет японской Rapidus создать передовой 2-нм ИИ-чип 2 ч.
Motorola показала концепт гибкого смартфона, который можно носить на руке 2 ч.
За 2023 год число легковых электромобилей в России выросло на 75 %, но их всё равно очень мало 2 ч.
Представлен концепт Android-смартфона без приложений — их заменил ИИ 3 ч.
Прилёгший на Луне американский модуль «Одиссей» скоропостижно завершит миссию 4 ч.