Сегодня 22 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → stability ai
Быстрый переход

Джеймс Кэмерон стал частью стартапа Stability AI, который работает над ИИ-генератором видео

Американский режиссёр Джеймс Кэмерон (James Cameron), приложивший руку к таким шедеврам, как две первые части «Терминатора» и «Титаник», всегда был сторонником передовых технических средств визуализации, а потому в эпоху расцвета систем генеративного искусственного интеллекта решил прикоснуться к их созданию, войдя в состав совета директоров британского стартапа Stability AI.

 Источник изображения: Dell

Источник изображения: Dell

Эта молодая компания создаёт средства автоматической генерации видео по текстовому описанию, конкурируя с гигантами типа OpenAI и Google. Представители американской киноиндустрии проявили интерес к подобным инструментам ещё после демонстрации в феврале этого года аналогичного решения Sora компании OpenAI. Для британского стартапа Stability AI связь с таким деятелем кинокультуры, как Кэмерон, позволяет увереннее находить рынки сбыта для своих разработок. В 2022 году капитализация Stability AI оценивалась в $1 млрд, а в текущем году компании удалось привлечь $80 млн. Исполнительным председателем совета директоров Stability AI стал бывший президент Facebook Шон Паркер (Sean Parker).

Программное средство Stable Video Diffusion позволяет создавать видео силами искусственного интеллекта на базе текстового описания. По словам Кэмерона, пересечение генеративного искусственного интеллекта с генерируемыми компьютером изображениями «открывает перед художниками новые способы рассказывать истории, которые они ранее не могли себе даже представить». Даже с учётом воодушевления режиссёра-новатора, отношения Голливуда с разработчиками систем генеративного искусственного интеллекта нельзя назвать гладкими. Актёры и сценаристы в прошлом году устроили забастовку, выражая протест против их замещения плодами деятельности искусственного интеллекта. Они призвали ограничить применение таких технологий при создании кинопродукции и телевизионных программ.

Stability AI представила генератор 4D-видео Stable Video 4D

На фоне популярности генеративных нейросетей уже доступно множество ИИ-алгоритмов для создания видео, таких как Sora, Haiper и Luma AI. Разработчики из Stability AI представили нечто совершенно новое. Речь идёт о нейросети Stable Video 4D, которая опирается на существующую модель Stable Video Diffusion, позволяющую преобразовывать изображения в видео. Новый инструмент развивает эту концепцию, создавая из получаемых видеоданных несколько роликов с 8 разными перспективами.

 Stable Diffusion 3

Stable Diffusion 3

«Мы считаем, что Stable Video 4D будет использоваться в кинопроизводстве, играх, AR/VR и других сферах, где присутствует необходимость просмотра динамически движущихся 3D-объектов с произвольных ракурсов», — считает глава подразделения по 3D-исследованиям в Stability AI Варун Джампани (Varun Jampani).

Это не первый случай, когда Stability AI выходит за пределы генерации двумерного видео. В марте компания анонсировала алгоритм Stable Video 3D, с помощью которого пользователи могут создавать короткие 3D-ролики на основе изображения или текстового описания. С запуском Stable Video 4D компания делает значительный шаг вперёд. Если понятие 3D или три измерения обычно понимается как тип изображения или видео с глубиной, то 4D, не добавляет ещё одно измерение. На самом деле 4D включает в себя ширину (x), высоту (y), глубину (z) и время (t). Это означает, что Stable Video 4D позволяет смотреть на движущиеся 3D-объекты с разных точек обзора и в разные моменты времени.

«Ключевые аспекты, которые позволили создать Stable Video 4D, заключаются в том, что мы объединили сильные стороны наших ранее выпущенных моделей Stable Video Diffusion и Stable Video 3D, а также доработали их с помощью тщательно подобранного набора данных динамически движущихся 3D-объектов», — пояснил Джампани. Он также добавил, что Stable Video 4D является первым в своём роде алгоритмом, в котором одна нейросеть выполняет синтез изображения и генерацию видео. В уже существующих аналогах для решения этих задач используются отдельные нейросети.

«Stable Video 4D полностью синтезирует восемь новых видео с нуля, используя для этого входное видео в качестве руководства. Нет никакой явной передачи информации о пикселях с входа на выход, вся эта передача информации осуществляется нейросетью неявно», — добавил Джампани. Он добавил, что на данный момент Stable Video 4D может обрабатывать видео с одним объектом длительностью несколько секунд с простым фоном. В дальнейшем разработчики планируют улучшить алгоритм, чтобы он мог использоваться для обработки более сложных видео.

Stability AI сменила руководство и привлекла 80 млн долларов инвестиций

Стартап в области искусственного интеллекта Stability AI в последнее время столкнулся с растущими затратами и текучкой кадров. Сегодня компания объявила о назначении генеральным директором Према Аккараджу (Prem Akkaraju). Должность председателя правления занял крупный инвестор Шон Паркер (Sean Parker). Сообщается, что в общей сложности Stability AI удалось привлечь финансирование в размере $80 млн.

 Источник изображения: stability.ai

Источник изображения: stability.ai

«Компания находится в идеальном положении, чтобы возглавить реальную конвергенцию генеративного искусственного интеллекта и студийного контента», — говорится в заявлении Аккараджу, который вместе с Паркером войдёт в совет директоров.

Назначение нового руководителя Stability AI положило конец многомесячному хаосу в некогда популярном стартапе. В марте соучредитель и первый генеральный директор компании Эмад Мостак (Emad Mostaque) подал в отставку из-за ухода ключевых сотрудников и акционеров, и сокращения денежных резервов. После его увольнения ключевой инвестор Coatue Management вышел из совета директоров, но после назначения нового руководителя возобновил своё участие в инвестициях.

Кроме Coatue Management в новом раунде финансирования приняли участие такие инвесторы, как Lightspeed Venture Partners, Greycroft, миллиардер Эрик Шмидт (Eric Schmidt), а также Аккараджу и Паркер. Временные генеральные директора Шань Вонг (Shan Wong) и Кристиан Лафорте (Christian Laforte) останутся в Stability AI в качестве главного операционного директора и технического директора соответственно.

Stability AI в конце 2022 года привлекла $101 млн венчурного капитала благодаря разработанному её сотрудниками популярному ИИ-инструменту для генерации изображений Stable Diffusion. Затем компания столкнулась с целым рядом управленческих и юридических проблем, включая иск от Getty Images. В отличие от конкурирующих компаний, Stability AI долгое время не удавалось привлечь дополнительное финансирование.

Представлен ИИ-генератор изображений Stable Diffusion Medium, которому достаточно видеокарты с 5 Гбайт памяти

Компания Stability AI представила модель искусственного интеллекта Stable Diffusion Medium, предназначенную для генерации изображений по текстовому описанию. Её старшая версия Stable Diffusion 3 была анонсирована ещё в феврале, а в апреле она заработала через API.

 Источник изображений: Stability AI

Источник изображений: Stability AI

Stable Diffusion Medium задумана как модель меньшего размера — очень мощная, но способная работать на потребительских видеокартах. Уменьшенный вариант Stable Diffusion 3 станет привлекательным вариантом для пользователей и организаций с ограниченными ресурсами, которым необходимо запустить высокоэффективную систему генерации изображений. Испробовать новую нейросеть пока можно через API, на сервере Stable Artisan через Discord; веса модели также доступны для некоммерческого использования на Hugging Face.

С выходом новой нейросети представленная ранее большая модель переименовывается в Stable Diffusion 3 (SD3) Large — она имеет 8 млрд параметров, тогда как у новой SD3 Medium только 2 млрд параметров, зато она может работать на домашних видеокартах, выдвигая системное требование в 5 Гбайт видеопамяти. Раньше для моделей Stable Diffusion требовались исключительно передовые модели Nvidia, но и сейчас рекомендуются всё-таки видеокарты с 16 Гбайт памяти.

При относительно скромных требованиях к ресурсам SD3 Medium предлагает широкие возможности, сопоставимые по ряду функций со старшей SD3 Large: фотореализм, типографику, понимание естественного языка и пространственного расположения элементов на изображении, высокую детализацию на мегапиксель и высокую адаптируемость с возможностью тонкой настройки.

Stability AI погрязла в долгах и теперь ищет себе покупателя

Британский стартап Stability AI, специализирующийся на технологиях искусственного интеллекта, за последние недели провёл переговоры как минимум с одним потенциальным покупателем компании. Stability AI решилась на кардинальную меру из-за нехватки денежных средств, передаёт The Information со ссылкой на одного из участников переговоров.

 Источник изображения: stability.ai

Источник изображения: stability.ai

По итогам I квартала 2024 года объём доходов Stability AI составил менее $5 млн, а чистый убыток достиг $30 млн. Кроме того, к настоящему моменту компания задолжала более $100 млн по неоплаченным счетам поставщикам облачных услуг и другим партнёрам. Stability AI пока не предоставила комментариев по поводу сведений о возможной продаже.

Переговоры о переходе к новому владельцу начались через месяц после того, как компания объявила об увольнении части сотрудников в рамках процесса реструктуризации — он, в свою очередь, был запущен вслед за уходом основателя Stability AI Эмада Мостака (Emad Mostaque) с поста генерального директора. В октябре прошлого года компания докладывала, что у неё около 200 сотрудников. За время своего существования она выпустила модели ИИ, способные генерировать изображения, музыку и видео по текстовым описаниям.

ИИ-стартап Stability AI сократит 10 % персонала из-за усиления конкуренции

Спустя несколько недель после скандального ухода основателя и гендиректора Эмада Мостака (Emad Mostaque), стартап Stability AI объявил об увольнении части сотрудников в рамках проводимой реструктуризации, пишет агентство Reuters со ссылкой на электронное письмо, разосланное сотрудникам содиректорами Шань Шань Вонгом (Shan Shan Wong) и Кристианом Лафорте (Christian Laforte).

 Источник изображения: Stability AI

Источник изображения: Stability AI

Увольнению подлежат 20 человек, что составляет 10 % персонала компании. «Те, кого это затронет, будут уведомлены индивидуально, и мы будем поддерживать их на протяжении всего этого периода», — говорится в электронном письме. Данный шаг объясняется необходимостью сокращения затрат на фоне ужесточения конкуренции на рынке ИИ со стороны таких компаний, как OpenAI и Mistral.

Сотрудники, которых уже коснулось сокращение, в основном занимались операционной деятельностью и были уведомлены о своих увольнениях, сообщил источник ресурсу CNBC на условиях анонимности.

Согласно данным Crunchbase и Pitchbook, в число инвесторов Stability AI, разработавшего ИИ-генератор изображений Stable Diffusion, входят венчурный фонд Lightspeed Venture Partners, компания Sound Ventures актёра Эштона Катчера (Ashton Kutcher), фирма по управлению инвестициями Coatue и корпорация Intel, инвестировавшая в стартап сотни миллионов долларов США.

В прошлом месяце Stability AI объявила, что Мостак покидает компанию, чтобы «заниматься децентрализованным ИИ». Его уход последовал за публикациями СМИ, ставящими под сомнение полномочия гендиректора. В июне 2023 года Forbes сообщил, что Мостак ввёл в заблуждение общественность, в том числе инвесторов, относительно получения степени магистра в Оксфордском университете, а также о характере партнёрства с Amazon. Stability AI охарактеризовала сделку с Amazon как стратегическую, хотя она представляла собой не что иное, как стандартный договор аренды облачной инфраструктуры.

Глава Stability AI Эмад Мостак ушёл в отставку — он займётся децентрализованным ИИ

Основатель и глава Stability AI Эмад Мостак (Emad Mostaque) оставил должности генерального директора и председателя совета директоров компании. Временно руководство стартапом возьмут на себя главный операционный директор Шань Шань Вонг (Shan Shan Wong) и технический директор Кристиан Лафорте (Christian Laforte).

 Источник изображения: wikipedia.org

Источник изображения: wikipedia.org

Своё решение оставить должность Эмад Мостак объяснил стремлением заняться децентрализованными проектами в области искусственного интеллекта. По его мнению, невозможно победить «централизованный ИИ» ещё более «централизованным ИИ» — так он охарактеризовал структуры ведущих стартапов в отрасли, в первую очередь OpenAI и Anthropic. Мостак добавил, что решение оставить руководящую должность принадлежало ему. «У нас должно быть более прозрачное и распределённое управление в сфере ИИ, ведь она становится более важной. Это сложная проблема, но, думаю, мы сможем её решить <..> Концентрация власти в сфере ИИ вредит всем нам. Я решил уйти, чтобы исправить это в Stability и других местах», — заявил он.

Ещё год назад создавалось ощущение, что Эмад Мостак не считал рост доходов приоритетной задачей. Ориентацию на прибыль у занимающихся генеративным ИИ компаний он называл странной и приводил в пример компанию MagicLeap, которая потратила миллиарды, прежде чем выйти на прибыльность. Но уже в этом году финансовый вопрос встал острее. «Дела у нас идут хорошо, в этом году мы уже опережаем прогнозы. Наша цель — в этом году добиться положительного денежного потока, думаю, мы сможем достичь этого раньше, а не позже», — написал он на Reddit.

«Рынок огромен, и открытые модели будут нужны для периферийных [вычислений] и всех регулируемых отраслей. Вот почему мы являемся одной из немногих компаний, которые открывают данные, код, детали обучения и прочее. Индивидуальные модели, консалтинг и другое — огромные рынки и очень разумные бизнес-модели; примерно в следующем году мы выйдем на корпоративное внедрение, а прошлый год мы просто проводили испытания», — рассказал Эмад Мостак.

Midjourney заблокировала доступ всем сотрудникам конкурирующей Stability AI за агрессивный сбор данных

В минувшую субботу ИИ-генератор изображений Midjourney подвергся массированной атаке, которая привела к отключению на 24 часа серверов сервиса. Атака проводилась со стороны учётной записи, которую связали с инженерами по сбору данных из конкурирующей компании Stability AI. В итоге всем сотрудникам Stability AI закрыли доступ к платформе Midjourney.

 Источник изображения: stability.ai

Источник изображения: stability.ai

Инженеры Midjourney обнаружили, что одна из учётных записей «пытается получить запросы и изображения каждого пользователя на сайте». Проще говоря, из Midjourney очень активно скачивались пары «запрос + картинка». Эти запросы спровоцировали перегрузку серверов компании и привели к частичному отключению её базы данных на 24 часа. После блокировки недобросовестного пользователя сотрудники Midjourney провели расследование и обнаружили, что учётная запись «была связана через две кредитные карты с одним из ведущих инженеров по сбору данных в команде Stable Diffusion [компании Stability AI]». В ответ Midjourney решила запретить всем сотрудникам Stability AI пользоваться её платформой.

Midjourney и Stability AI — прямые конкуренты в области генеративного ИИ. Работающая в Сан-Франциско компания Midjourney была основана Дэвидом Хольцем (David Holz). Её доход, по некоторым оценкам составляет $200 млн, а штат — менее 100 сотрудников; внешний капитал для работы компании не привлекался. Базирующаяся в Лондоне Stability AI привлекла $197 млн от Lightspeed, Coatue и Intel при оценке в $1 млрд. В 2023 году выручка компании, по данным AIM Research, составила $44,2 млн.

Глава Stability AI Эмад Мостак (Emad Mostaque) заявил, что инцидент не может расцениваться как DDoS-атака, и если сотрудники компании и были к нему причастны, то их действия не являлись преднамеренными; он также пообещал провести внутреннее расследование. В ответ на это Хольц сообщил, что отправил Мостаку дополнительную информацию в помощь внутреннему расследованию.

Сбор данных (data scraping) — извлечение информации из ответов другой программы, обычно производимое для обучения собственной модели. Сегодня этот метод является стандартной практикой в гонке за разработку инструментов ИИ, хотя иногда вызывает претензии — эта практика перегружает серверы платформ, с которых производится сбор данных и ухудшает качество обслуживания пользователей. Но крупные инциденты с отключением серверов до настоящего момента не отмечались.

Stability AI ввела подписку для коммерческого использования её ИИ-художника и других моделей

Компания Stability AI, ответственная за ИИ-генератор изображений Stable Diffusion, ввела платную подписку для тех, кто намеревается использовать её модели в коммерческих целях. Некоммерческое применение и использование в научных целях остаются бесплатными.

 Источник изображения: stability.ai

Источник изображения: stability.ai

Подписная модель, по словам компании «переопределяет» порядок предоставления коммерческих прав клиентам, что поможет установить баланс между прибыльностью и открытостью. Подписка в Stability AI предлагает три уровня: бесплатный для личного и исследовательского использования; для «создателей, разработчиков и стартапов с годовым доходом менее $1 млн, институциональным финансированием менее $1 млн и менее 1 млн активных пользователей» за $20 в месяц; а также корпоративный план. Все три варианта предлагают ранний доступ к новым моделям ИИ, но использовать их в коммерческих целях разрешено только подписчикам двух последних планов.

Stability AI до настоящего момента отличалась приверженностью проектам с открытым исходным кодом, и гендиректор компании по-прежнему уверяет, что доступ к её платформам может получить каждый. Он также обращает внимание, что объявленная открытой ИИ-модель Meta Llama 2 не отвечает всем требованиям Open Source Initiative. При этом пока нет ясности, что понимается под коммерческим использованием продуктов Stability AI: создание коммерческих сервисов на базе её моделей или коммерческое использование изображений, сгенерированных Stable Diffusion. Ситуация осложняется тем, что «творчество» ИИ-платформ до сих пор не имеет определённого правового статуса.

В сентябре компания представила платформу Stable Audio, которая позволяет генерировать музыку по текстовому описанию — она тоже предлагает бесплатный и платный доступ. Аналогичные решения есть и у других компаний: подписка OpenAI ChatGPT Plus позволяет пользоваться более мощной моделью GPT-4 при сниженном времени отклика.

Стартап Stability AI начал поиск покупателя на фоне финансовых трудностей и давления инвесторов

Британский стартап в области ИИ — Stability AI, известный своим генератором изображений Stable Diffusion, ведёт переговоры с потенциальными покупателями бизнеса. Инициатива по продаже возникла на фоне возрастающего давления со стороны инвесторов, в частности Coatue Management, которые выражают обеспокоенность финансовым состоянием компании.

 Источник изображения: stability.ai

Источник изображения: stability.ai

Стартап Stability AI, расположенный в Лондоне и известный своей генеративной ИИ-моделью Stable Diffusion, в последние недели активно ищет покупателя. Это происходит на фоне усиливающегося давления со стороны инвесторов, особенно со стороны Coatue Management, которая требует отставки главы компании, Эмада Мостака (Emad Mostaque). Требование Coatue Management об отставке Мостака последовало спустя год после того, как они помогли привлечь финансирование для Stability AI, оценив стартап в $1 млрд.

Stability AI провела предварительные переговоры с несколькими потенциальными покупателями, но источники, близкие к ситуации, предупреждают, что до заключения сделки ещё далеко и процесс может быть остановлен в любой момент. В то же время представитель Stability AI подчеркнул, что компания сосредоточена на разработке новых продуктов в области ИИ, включая модель генерации видео Stable Video Diffusion, и не стремится к продаже.

В августе доходы стартапа составили $1,2 млн, тогда как в текущем месяце ожидается их увеличение до $3 млн. Однако ежемесячные расходы компании на оплату счетов и зарплат достигают $8 млн. В октябре прошлого года стартап привлёк инвестиции в размере примерно $50 млн от корпорации Intel, направленные на дальнейшее развитие бизнеса.

Отношения между Stability AI и её инвесторами остаются напряжёнными. Генеральный партнёр Coatue Management, Шри Вишванат (Sri Vishwanath), покинул пост директора в результате инвестиций Intel в Stability, так как Coatue Management владеет значительным пакетом акций конкурента Intel — компании AMD. Партнёр из Lightspeed Venture Partners также ушёл с поста наблюдателя в совете директоров стартапа.

Intel, в свою очередь, в сентябре назвала Stability AI «якорным клиентом» для своего нового суперкомпьютера, ориентированного на ИИ. Согласно двум источникам, знакомым с условиями сделки, инвестиции Intel были частично обусловлены использованием процессоров Intel в вычислениях Stability AI.

Представлен ИИ-генератор коротких видео Stable Video Diffusion

Компания Stability AI представила генеративную модель искусственного интеллекта Stable Video Diffusion, предназначенную для создания видеороликов по текстовому описанию. В её основу легла модель Stable Diffusion, которая генерирует статические изображения на основе текстовых запросов.

 Источник изображения: stability.ai

Источник изображения: stability.ai

Исходный код Stable Video Diffusion разработчик опубликовал на GitHub, а необходимые для локального запуска модели веса доступны для скачивания на платформе Hugging Face. Компания также опубликовала исследовательский материал, в котором подробно изложила информацию о технических возможностях модели. Stable Video Diffusion свободно адаптируется для различных задач, например, её можно настроить для генерации видео по одному изображению в качестве образца. Она станет базовой платформой для целого семейства производных моделей, которые будут выходить позже — компания намеревается выстроить целую экосистему.

В обозримом будущем Stability AI предложит возможность генерировать видео по текстовому описанию в веб-интерфейсе — чтобы оказаться в числе первых пользователей сервиса, нужно оформить заявку на включение в список ожидания. Stable Video Diffusion выпущена в виде двух моделей преобразования изображений в видео — они генерируют 14 (SVD) и 25 (SVD-XT) кадров видео с настраиваемой частотой от 3 до 30 кадров в секунду.

Сейчас проект находится на ранней стадии, и в своём теперешнем виде модель не предназначается для создания полнофункциональных или коммерческих приложений — пока это исключительно научный проект, о работе которого собираются отзывы. В будущем, конечно, планируется выпуск полной версии Stable Video Diffusion.

Представлен ИИ-генератор музыки Stable Audio, который творит по текстовым описаниям

Stability AI, разработавшая технологию искусственного интеллекта Stable Diffusion для преобразования текста в изображение, объявила о публичном релизе нейросети Stable Audio для генерации коротких аудиоклипов на основе текстовых описаний. Stable Audio базируется на тех же основных методах работы ИИ, которые используются Stable Diffusion при создании изображений.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Stability AI наиболее известен своей работой с изображениями, но теперь мы запускаем наш первый продукт для создания музыки и аудио, который называется Stable Audio, — рассказал вице-президент по звуку в Stability AI Эд Ньютон-Рекс (Ed Newton-Rex). — Идея очень проста: вы описываете музыку или аудио, которые хотите услышать, в тексте, и наша система генерирует их для вас».

Эд не новичок в мире компьютерной музыки: в 2011 году он создал стартап Jukedeck, который в 2019 был куплен TikTok. Однако технология, лежащая в основе Stable Audio, уходит корнями не в Jukedeck, а во внутреннюю исследовательскую студию Stability AI по созданию музыки под названием Harmonai, созданную Заком Эвансом (Zach Evans). Эванс объяснил, что текстовая модель использует технику, известную как предварительная подготовка аудиоконтрастного языка (CLAP). Модель Stable Audio имеет около 1,2 миллиарда параметров, что примерно соответствует исходной версии Stable Diffusion для генерации изображений.

Возможность генерировать базовые звуковые дорожки с помощью технологии не является чем-то новым. В прошлом использовался метод так называемой символьной генерации, которая обычно используется при работе с форматом MIDI (цифровой интерфейс музыкальных инструментов). Генеративные возможности ИИ Stable Audio позволяют пользователям создавать новую музыку, выходящую за рамки повторяющихся последовательностей нот, характерных для MIDI и символьной генерации.

 Источник изображения: Atomic Heart

Источник изображения: Atomic Heart

Stable Audio работает напрямую с необработанными аудиосэмплами для обеспечения более высокого качества вывода. Модель обучалась на более чем 800 000 фрагментах лицензионной музыки из аудиотеки AudioSparks. «Одна из самых сложных задач при создании текстовых моделей — получение аудиоданных, которые не только являются высококачественным звуком, но и имеют соответствующие метаданные» — пояснил Эванс.

Одна из распространённых задач, которые пользователи ставят перед моделями генерации изображений — стилизация под конкретного художника. Однако в случае Stable Audio пользователи не смогут обратиться к ИИ с подобным запросом — по мнению создателей Stable Audio, большинство музыкантов скорее захотят проявить больше творчества.

Модель Stable Audio будет доступна как бесплатно, так и по тарифному плану Pro за $12 в месяц. Бесплатная версия позволяет создавать 20 треков в месяц продолжительностью до 20 секунд, а версия Pro увеличивает число треков до 500, а время их звучания до 90 секунд. Ещё последняя позволяет коммерческое использование произведений. В рамках запуска Stable Audio Stability AI также выпустит руководство по текстовым подсказкам.

Stability AI выпустил ИИ-генератор изображений Stable Diffusion XL 1.0, который может работать на более «простом» вычислительном оборудовании

ИИ-стартап Stability AI выпустил новую версию своей флагманской модели преобразования текста в изображение Stable Diffusion XL 1.0 (SDXL 1.0) с открытым исходным кодом, которую он позиционирует как свою «самую продвинутую» модель на сегодняшний день.

 Источник изображения: Pixabay

Источник изображения: Pixabay

По словам Stability, SDXL 1.0, доступная на GitHub в дополнение к API Stability и потребительским приложениям Clipdrop и DreamStudio, обеспечивает «более яркие» и «точные» цвета и лучшую контрастность, тени и освещение по сравнению с предыдущей версией.

Джо Пенна (Joe Penna), руководитель отдела прикладного машинного обучения Stability AI, сообщил в интервью TechCrunch, что SDXL 1.0, содержащая 3,5 млрд параметров, может выдавать изображения с разрешением 1 мегапиксель «за секунды» с различными соотношениями сторон.

Модель предыдущего поколения Stable Diffusion XL 0.9 также могла создавать изображения с высоким разрешением, но для её запуска требовалось больше вычислительной мощности. Как отметил ресурс SiliconANGLE, открытый исходный код наряду с возможностью работать на относительно простом оборудовании делают SDXL 1.0 гораздо более доступной, чем конкурирующие модели создания изображений.

«SDXL 1.0 — кастомизируемая и готова к тонкой настройке в соответствии с концепциями и стилями, — рассказал Пенна. — Она также проста в использовании, обладает способностью создавать сложные проекты с базовыми запросами на обработку естественного языка».

Кроме того, SDXL 1.0 получила улучшения в области генерации текста. В то время как даже у многих лучших моделей преобразования текста в изображение наблюдаются проблемы с генерацией изображения с разборчивыми логотипами, не говоря уже о каллиграфии или шрифтах, SDXL 1.0 способна на «продвинутое» генерирование текста и обеспечение его разборчивости, говорит Пенна.

SDXL 1.0 имеет функции inpainting, позволяющую восстанавливать недостающие части изображения, outpainting (расширение существующих изображений) и подсказки «изображение-к-изображению», позволяющую после ввода изображения добавлять несколько текстовых подсказок для создания более подробных вариантов этого изображения. Кроме того, модель «понимает» сложные инструкции, состоящие из нескольких частей, которые даются в коротких подсказках, тогда как в предыдущих моделях Stable Diffusion требовались более длинные текстовые подсказки.

Тренировочный набор SDXL 1.0 также включает в себя работы художников, протестовавших против использования компаниями, включая Stability AI, их работ в качестве обучающих данных для генеративных моделей ИИ. Stability AI утверждает, что она защищена от юридической ответственности доктриной добросовестного использования, по крайней мере, в США. Хотя это не помешало Getty Images подать в суд на Stability AI с обвинением в незаконном использовании изображений сервиса для обучения своей генеративной нейросети.

Stability AI представила Stable Doodle — ИИ, который превращает эскизы в полноценные рисунки

Ответственный за ИИ-генератор изображений Stable Diffusion стартап Stability AI представил сервис Stable Doodle, способный превращать эскизы в полноценные детализированные изображения.

 Источник изображения: stability.ai

Источник изображения: stability.ai

Платформой для сервиса Stable Doodle стала модель Stable Diffusion XL — она анализирует контуры эскиза и генерирует его «визуально приятное» художественное воплощение. Испытать новый инструмент можно на платформе ClipDrop, которую Stability AI в минувшем марте приобрела вместе со стартапом Init ML, созданным бывшими работниками Google. Разработчик признал, что это не первый инструмент, предлагающий создание детализированных художественных изображений по примитивным эскизам, но отметил, что Stable Doodle работает быстрее аналогов и обеспечивает более качественный результат.

Ещё одним компонентом, обеспечивающим работу инструмента, стал модуль T2I-Adapter, который анализирует входящее изображение и транслирует результат на генеративную ИИ-модель. В качестве дополнительного средства Stable Doodle позволяет оставить текстовое описание для исходного эскиза. Stable Diffusion XL также позволяет выбирать стиль изображения на выходе: «Фотография», «Аниме», «Оригами», «Трёхмерная модель» — всего 14 вариантов.

В Stability AI рассказали, что Stable Doodle окажется полезным инструментом для дизайнеров или иллюстраторов и поможет им сэкономить время. При этом в компании предупредили, что качество изображения на выходе зависит от числа деталей на исходном эскизе, информативности подсказки и сложности поставленной задачи.

Нейросеть Stable Diffusion научили генерировать нормальные человеческие пальцы

Компания Stability AI представила (но впоследствии удалила анонс из блога) обновлённую версию нейросети для генерации изображений по текстовому описанию Stable Diffusion — она получила название SDXL 0.9. По сравнению с предшествующей новая версия обещает создание более качественных и детализированных фотореалистичных картинок.

 Изображение по описанию: «Инопланетяне гуляют среди нас в Лас-Вегасе, найденная плёночная фотография». Слева — работа генератора Stable Diffusion XL, справа —  SDXL 0.9. Источник изображений: stability.ai

Изображения по описанию: «Инопланетяне гуляют среди нас в Лас-Вегасе, найденная плёночная фотография». Слева — работа Stable Diffusion XL, справа — SDXL 0.9. Источник изображений: stability.ai

Разработчик охарактеризовал новую модель искусственного интеллекта как «прорыв в творческих вариантах применения генеративного ИИ изображений». Своё заявление в Stability AI подкрепили парными примерами картинок, созданных моделью Stable Diffusion XL и новой SDXL 0.9: фотореалистичные изображения волка, инопланетянина в Лас-Вегасе, а также человеческой руки с кофейным стаканчиком — во всех случаях новая версия модели предлагает более детализированные и правдоподобные картинки.

 «Волк в Национальном парке Йосемити, документальная съёмка природы»

«Волк в Национальном парке Йосемити, документальная съёмка природы»

В Stability AI добавили, что успеха удалось добиться за счёт значительно увеличения количества параметров обновлённой модели. Подчёркивается, что SDXL 0.9, как и все предшествующие платформы, можно запустить на домашнем компьютере. Системные требования включают 16 Гбайт оперативной памяти и видеокарту NVIDIA серии GeForce RTX 20 и выше с 8 Гбайт памяти на борту. Поддерживаются Windows 10/11 и Linux.

 «Рука с маникюром держит кофе навынос, рассвет в пастельных тонах, пляж, *** и плёночная фотография»

«Рука с маникюром держит кофе навынос, рассвет в пастельных тонах, пляж, Instagram и плёночная фотография»

Обновлённая модель в ближайшее время станет доступной в веб-сервисе Stability AI Clipdrop, а также в приложении DreamStudio. На середину июля намечен выход SDXL 1.0 с открытым исходным кодом.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 3 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 5 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 6 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 7 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 9 ч.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 10 ч.
В Японии порекомендовали добавить в завещания свои логины и пароли 11 ч.
Обновления Windows 11 больше не будут перезагружать ПК, но обычных пользователей это не касается 12 ч.
VK похвасталась успехами «VK Видео» на фоне замедления YouTube 13 ч.
GTA наоборот: полицейская песочница The Precinct с «дозой нуара 80-х» не выйдет в 2024 году 15 ч.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 5 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 5 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 5 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 7 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 10 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 10 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 11 ч.
Грузовик «Прогресс МС-29» улетел к МКС с новогодними подарками и мандаринами для космонавтов 11 ч.
Meta планирует построить за $5 млрд кампус ЦОД в Луизиане 12 ч.
Arm задаёт новый стандарт для ПК, чтобы навязать конкуренцию x86 12 ч.