Сегодня 27 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → stable diffusion
Быстрый переход

В MIT придумали, как в 30 раз ускорить генерацию изображений с помощью ИИ

Исследователи из Массачусетского технологического института (MIT) смогли заметно ускорить создание изображений по текстовым описаниям с помощью генеративного искусственного интеллекта. Новый метод позволяет генерировать изображения высокой чёткости в 30 раз быстрее существующих.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

Обычно в генеративных ИИ применяется техника так называемой «диффузии», когда создаётся максимально размытая картинка, а затем она детализируется до окончательного результата, максимально соответствующего тому, что ИИ может выдать в ответ на запрос пользователя. Диффузия занимает довольно много времени, поэтому исследователи MIT поставили цель её ускорить.

 Источник изображений: tianweiy.github.io

Источник изображений: tianweiy.github.io

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT свели генерацию изображений к единственному проходу, а новый метод назвали «дистилляцией с согласованным распределением» (distribution matching distillation). Очевидно, что генерация картинки в один проход заметно быстрее, чем за типичные для диффузионных моделей 30–50 шагов. Так, на современном оборудовании Stable Diffusion 1.5 создаёт изображение за 1,5 секунды, в то время как новая модель на основе DMD справляется за 0,05 секунды.

Это не первая попытка дистилляции диффузионных моделей для ускорения генерации изображений. В Instaflow и LCM пытались применить похожий подход, но результаты не впечатляли. Компания Stability AI также пыталась ускорить диффузионные модели и добилась некоторых успехов, выпустив Stable Diffusion Turbo, создающую картинку с разрешением до 1 мегапикселя за один проход, однако сгенерированные в несколько проходов изображения всё равно получались заметно лучше.

ИИ-ускоритель Intel Gaudi2 оказался на 55 % быстрее Nvidia H100 в тестах Stable Diffusion 3, но есть нюанс

Компания Stability AI, разработчик популярной модели генеративного ИИ Stable Diffusion, сравнила производительность модели Stable Diffusion 3 на популярных ускорителях вычислений для центров обработки данных, включая Nvidia H100 Hopper, A100 Ampere и Intel Gaudi2. По утверждению Stability AI, Intel Gaudi2 продемонстрировал производительность примерно на 56 % выше, чем Nvidia H100.

 Источник изображения: Intel

Источник изображения: Intel

В отличие от H100, который представляет собой суперскалярный графический процессор с тензорными CUDA-ядрами, Gaudi2 специально спроектирован для ускорения генеративного ИИ и больших языковых моделей (LLM). В тестах приняли участие пары кластеров, которые в сумме обеспечивали по 16 тех или ускорителей, а проводились тесты с постоянным размером батча (число тренировочных объектов) в 16 на каждый ускоритель (всего 256). Системы на Intel Gaudi2 оказались способны генерировать 927 изображений в секунду по сравнению с 595 изображениями для ускорителей H100 и 381 изображением в секунду для массива A100.

 Источник изображения: Stability AI

Источник изображения: Stability AI

При увеличении количества кластеров до 32, а числа ускорителей до 256 и размере батча 16 на ускоритель (общий размер 4096), массив Gaudi2 генерирует 12 654 изображения в секунду или 49,4 изображения в секунду на ускоритель, по сравнению с 3992 изображениями в секунду или 15,6 изображениями в секунду на устройство у массива A100 Ampere.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Необходимо отметить, что производительность ускорителей ИИ измерялась с использованием фреймворка PyTorch, а в случае применения оптимизации TensorRT чипы A100 создают изображения до 40 % быстрее, чем Gaudi2. Тем не менее, исследователи Stability AI ожидают, что при дальнейшей оптимизации Gaudi2 превзойдёт A100. Компания полагает, что более быстрый интерконнект и больший объем памяти (96 Гбайт) делают решения Intel вполне конкурентоспособными и планирует использовать ускорители Gaudi2 в Stability Cloud.

 Источник изображения: techpowerup.com

Источник изображения: techpowerup.com

По сообщению Stability AI, в более ранних тестах модели Stable Diffusion XL с использованием фреймворка PyTorch ускоритель Intel Gaudi2 генерирует при 30 шагах изображение размером 1024 × 1024 за 3,2 секунды по сравнению с 3,6 секунды для PyTorch на Nvidia A100 и 2,7 секунды при использовании оптимизации TensorRT на Nvidia А100.

Анонсирована Stable Diffusion 3.0 — ИИ для рисования сменил архитектуру и научился писать

Компания Stability AI выпустила предварительную версию Stable Diffusion 3.0 — флагманской модели искусственного интеллекта следующего поколения для генерации изображений по текстовому описанию. Stable Diffusion 3.0 будет доступна в разных версиях на базе нейросетей размером от 800 млн до 8 млрд параметров.

 Источник изображений: Stable Diffusion 3.0

Источник изображений: Stable Diffusion 3.0

В течение последнего года компания Stability AI постоянно совершенствовала и выпускала несколько нейросетей, каждая из которых показывала растущий уровень сложности и качества. Выпуск SDXL в июле значительно улучшил базовую модель Stable Diffusion, и теперь компания собирается пойти значительно дальше.

Новая модель Stable Diffusion 3.0 призвана обеспечить улучшенное качество изображения и лучшую производительность при создании изображений из сложных подсказок. Новая нейросеть обеспечит значительно лучшую типографику, чем предыдущие версии Stable Diffusion, обеспечивая более точное написание текста внутри сгенерированных изображений. В прошлом типографика была слабой стороной Stable Diffusion, собственно, как и многих других ИИ-художников.

Stable Diffusion 3.0 — это не просто новая версия модели прежней Stability AI, ведь она основана на новой архитектуре. «Stable Diffusion 3 – это диффузионная модель-трансформер, архитектура нового типа, которая аналогична той, что используется в представленной недавно модели OpenAI Sora, — рассказал VentureBeat Эмад Мостак (Emad Mostaque), генеральный директор Stability AI. — Это настоящий преемник оригинальной Stable Diffusion».

Stability AI экспериментирует с несколькими типами подходов к созданию изображений. Ранее в этом месяце компания выпустила предварительную версию Stable Cascade, которая использует архитектуру Würstchen для повышения производительности и точности. Stable Diffusion 3.0 использует другой подход, используя диффузионные модели-трансформеры. «Раньше у Stable Diffusion не было трансформера», — сказал Мостак.

Трансформеры лежат в основе большей части современных нейросетей, запустивших революцию в области искусственного интеллекта. Они широко используются в качестве основы моделей генерации текста. Генерация изображений в основном находилась в сфере диффузионных моделей. В исследовательской работе, в которой подробно описываются диффузионные трансформеры (DiT), объясняется, что это новая архитектура для диффузионных моделей, которая заменяет широко используемую магистраль U-Net трансформером, работающим на скрытых участках изображения. Применение DiT позволяет более эффективно использовать вычислительные мощности и превосходить другие подходы к диффузной генерации изображений.

Еще одна важная инновация, которой пользуется Stable Diffusion 3.0 — это согласование потоков. В исследовательской работе по сопоставлению потоков объясняется, что это новый метод обучения нейросетей с помощью «непрерывных нормализующих потоков» (Conditional Flow Matching — CNF) для моделирования сложных распределений данных. По мнению исследователей, использование CFM с оптимальными путями транспортировки приводит к более быстрому обучению, более эффективному отбору образцов и повышению производительности по сравнению с диффузионными путями.

Улучшенная типографика в Stable Diffusion 3.0 является результатом нескольких улучшений, которые Stability AI встроил в новую модель. Как пояснил Мостак, качественная генерация текстов на изображения стала возможной благодаря использованию диффузионной модели-трансформера и дополнительных кодировщиков текста. С помощью Stable Diffusion 3.0 стало возможным генерировать на изображениях полные предложения со связным стилем написания текста.

Хотя Stable Diffusion 3.0 изначально демонстрируется как технология искусственного интеллекта для преобразования текста в изображение, она станет основой для гораздо большего. В последние месяцы Stability AI также создаст нейросети для создания 3D-изображений и видео.

«Мы создаем открытые модели, которые можно использовать где угодно и адаптировать к любым потребностям, — сказал Мостак. — Это серия моделей разных размеров, которая послужит основой для разработки наших визуальных моделей следующего поколения, включая видео, 3D и многое другое».

В популярных материалах для обучения нейросетей нашли изображения сексуального насилия над детьми

Исследователи из Стэнфорда обнаружили, что популярный набор данных LAION-5B, используемый для обучения моделей генеративного искусственного интеллекта, и применявшийся для Stable Diffusion и Google Imagen, включает в себя сотни ссылок на материалы сексуального насилия над детьми (Child Sexual Abuse Material — CSAM). Установлено, что LAION-5B включал по меньшей мере 1679 нелегальных изображений, взятых из постов в социальных сетях и популярных сайтов для взрослых.

 Источник изображения: LAION

Источник изображения: LAION

Исследователи начали изучение набора данных LAION в сентябре 2023 года, стремясь выяснить, используются ли там материалы с сексуальным насилием над детьми. С этой целью хеши или идентификаторы изображений отправлялись на платформы обнаружения CSAM, такие как PhotoDNA, и в Канадский центр защиты детей.

Исследователи из Стэнфорда отметили, что наличие CSAM в наборе данных для обучения ИИ не обязательно негативно повлияет на результаты обученных моделей. Тем не менее, всегда есть вероятность, что модель использует что-то из незаконных материалов при генерации изображений. «Наличие повторяющихся идентичных случаев CSAM также является проблематичным, особенно из-за увеличения вероятности получения изображений конкретных жертв», — говорится в отчёте.

LAION, некоммерческая организация, которая управляет набором данных, сообщила, что придерживается политики «нулевой терпимости» к вредоносному контенту и временно удалит наборы данных из Сети. Согласно сайту LAION, набор данных не является непосредственно репозиторием изображений. Он представляет собой результат индексирования ресурсов интернета и содержит ссылки на изображения и замещающий текст.

Stability AI сообщила, что внутренние правила компании запрещают неправомерное использование её платформ. Компания утверждает, что при обучении своих моделей на наборе данных LAION-5B, она использовала лишь часть материалов, которые отбирались в том числе и с учётом безопасности.

Эксперты полагают, что будет сложно полностью удалить проблемный контент из моделей ИИ, обученных на нём. Они рекомендуют подождать, чтобы модели, обученные на LAION-5B, такие как Stable Diffusion 1.5, «устарели, а распространение прекратилось там, где это возможно». Google выпустила новую версию Imagen, но не раскрыла, на каком наборе данных она обучалась.

Генеральные прокуроры США призвали Конгресс создать комитет для расследования влияния ИИ на эксплуатацию детей и запретить создание CSAM, генерируемого ИИ.

Новая статья: Практикум по ИИ-рисованию, часть шестая: инструменты умной детализации (Hires. fix, ADetailer, ControlNet)

Данные берутся из публикации Практикум по ИИ-рисованию, часть шестая: инструменты умной детализации (Hires. fix, ADetailer, ControlNet)

Стартап Stability AI начал поиск покупателя на фоне финансовых трудностей и давления инвесторов

Британский стартап в области ИИ — Stability AI, известный своим генератором изображений Stable Diffusion, ведёт переговоры с потенциальными покупателями бизнеса. Инициатива по продаже возникла на фоне возрастающего давления со стороны инвесторов, в частности Coatue Management, которые выражают обеспокоенность финансовым состоянием компании.

 Источник изображения: stability.ai

Источник изображения: stability.ai

Стартап Stability AI, расположенный в Лондоне и известный своей генеративной ИИ-моделью Stable Diffusion, в последние недели активно ищет покупателя. Это происходит на фоне усиливающегося давления со стороны инвесторов, особенно со стороны Coatue Management, которая требует отставки главы компании, Эмада Мостака (Emad Mostaque). Требование Coatue Management об отставке Мостака последовало спустя год после того, как они помогли привлечь финансирование для Stability AI, оценив стартап в $1 млрд.

Stability AI провела предварительные переговоры с несколькими потенциальными покупателями, но источники, близкие к ситуации, предупреждают, что до заключения сделки ещё далеко и процесс может быть остановлен в любой момент. В то же время представитель Stability AI подчеркнул, что компания сосредоточена на разработке новых продуктов в области ИИ, включая модель генерации видео Stable Video Diffusion, и не стремится к продаже.

В августе доходы стартапа составили $1,2 млн, тогда как в текущем месяце ожидается их увеличение до $3 млн. Однако ежемесячные расходы компании на оплату счетов и зарплат достигают $8 млн. В октябре прошлого года стартап привлёк инвестиции в размере примерно $50 млн от корпорации Intel, направленные на дальнейшее развитие бизнеса.

Отношения между Stability AI и её инвесторами остаются напряжёнными. Генеральный партнёр Coatue Management, Шри Вишванат (Sri Vishwanath), покинул пост директора в результате инвестиций Intel в Stability, так как Coatue Management владеет значительным пакетом акций конкурента Intel — компании AMD. Партнёр из Lightspeed Venture Partners также ушёл с поста наблюдателя в совете директоров стартапа.

Intel, в свою очередь, в сентябре назвала Stability AI «якорным клиентом» для своего нового суперкомпьютера, ориентированного на ИИ. Согласно двум источникам, знакомым с условиями сделки, инвестиции Intel были частично обусловлены использованием процессоров Intel в вычислениях Stability AI.

Представлен ИИ-генератор коротких видео Stable Video Diffusion

Компания Stability AI представила генеративную модель искусственного интеллекта Stable Video Diffusion, предназначенную для создания видеороликов по текстовому описанию. В её основу легла модель Stable Diffusion, которая генерирует статические изображения на основе текстовых запросов.

 Источник изображения: stability.ai

Источник изображения: stability.ai

Исходный код Stable Video Diffusion разработчик опубликовал на GitHub, а необходимые для локального запуска модели веса доступны для скачивания на платформе Hugging Face. Компания также опубликовала исследовательский материал, в котором подробно изложила информацию о технических возможностях модели. Stable Video Diffusion свободно адаптируется для различных задач, например, её можно настроить для генерации видео по одному изображению в качестве образца. Она станет базовой платформой для целого семейства производных моделей, которые будут выходить позже — компания намеревается выстроить целую экосистему.

В обозримом будущем Stability AI предложит возможность генерировать видео по текстовому описанию в веб-интерфейсе — чтобы оказаться в числе первых пользователей сервиса, нужно оформить заявку на включение в список ожидания. Stable Video Diffusion выпущена в виде двух моделей преобразования изображений в видео — они генерируют 14 (SVD) и 25 (SVD-XT) кадров видео с настраиваемой частотой от 3 до 30 кадров в секунду.

Сейчас проект находится на ранней стадии, и в своём теперешнем виде модель не предназначается для создания полнофункциональных или коммерческих приложений — пока это исключительно научный проект, о работе которого собираются отзывы. В будущем, конечно, планируется выпуск полной версии Stable Video Diffusion.

Представлен ИИ-генератор музыки Stable Audio, который творит по текстовым описаниям

Stability AI, разработавшая технологию искусственного интеллекта Stable Diffusion для преобразования текста в изображение, объявила о публичном релизе нейросети Stable Audio для генерации коротких аудиоклипов на основе текстовых описаний. Stable Audio базируется на тех же основных методах работы ИИ, которые используются Stable Diffusion при создании изображений.

 Источник изображения: Pixabay

Источник изображения: Pixabay

«Stability AI наиболее известен своей работой с изображениями, но теперь мы запускаем наш первый продукт для создания музыки и аудио, который называется Stable Audio, — рассказал вице-президент по звуку в Stability AI Эд Ньютон-Рекс (Ed Newton-Rex). — Идея очень проста: вы описываете музыку или аудио, которые хотите услышать, в тексте, и наша система генерирует их для вас».

Эд не новичок в мире компьютерной музыки: в 2011 году он создал стартап Jukedeck, который в 2019 был куплен TikTok. Однако технология, лежащая в основе Stable Audio, уходит корнями не в Jukedeck, а во внутреннюю исследовательскую студию Stability AI по созданию музыки под названием Harmonai, созданную Заком Эвансом (Zach Evans). Эванс объяснил, что текстовая модель использует технику, известную как предварительная подготовка аудиоконтрастного языка (CLAP). Модель Stable Audio имеет около 1,2 миллиарда параметров, что примерно соответствует исходной версии Stable Diffusion для генерации изображений.

Возможность генерировать базовые звуковые дорожки с помощью технологии не является чем-то новым. В прошлом использовался метод так называемой символьной генерации, которая обычно используется при работе с форматом MIDI (цифровой интерфейс музыкальных инструментов). Генеративные возможности ИИ Stable Audio позволяют пользователям создавать новую музыку, выходящую за рамки повторяющихся последовательностей нот, характерных для MIDI и символьной генерации.

 Источник изображения: Atomic Heart

Источник изображения: Atomic Heart

Stable Audio работает напрямую с необработанными аудиосэмплами для обеспечения более высокого качества вывода. Модель обучалась на более чем 800 000 фрагментах лицензионной музыки из аудиотеки AudioSparks. «Одна из самых сложных задач при создании текстовых моделей — получение аудиоданных, которые не только являются высококачественным звуком, но и имеют соответствующие метаданные» — пояснил Эванс.

Одна из распространённых задач, которые пользователи ставят перед моделями генерации изображений — стилизация под конкретного художника. Однако в случае Stable Audio пользователи не смогут обратиться к ИИ с подобным запросом — по мнению создателей Stable Audio, большинство музыкантов скорее захотят проявить больше творчества.

Модель Stable Audio будет доступна как бесплатно, так и по тарифному плану Pro за $12 в месяц. Бесплатная версия позволяет создавать 20 треков в месяц продолжительностью до 20 секунд, а версия Pro увеличивает число треков до 500, а время их звучания до 90 секунд. Ещё последняя позволяет коммерческое использование произведений. В рамках запуска Stable Audio Stability AI также выпустит руководство по текстовым подсказкам.

Stability AI представила Stable Doodle — ИИ, который превращает эскизы в полноценные рисунки

Ответственный за ИИ-генератор изображений Stable Diffusion стартап Stability AI представил сервис Stable Doodle, способный превращать эскизы в полноценные детализированные изображения.

 Источник изображения: stability.ai

Источник изображения: stability.ai

Платформой для сервиса Stable Doodle стала модель Stable Diffusion XL — она анализирует контуры эскиза и генерирует его «визуально приятное» художественное воплощение. Испытать новый инструмент можно на платформе ClipDrop, которую Stability AI в минувшем марте приобрела вместе со стартапом Init ML, созданным бывшими работниками Google. Разработчик признал, что это не первый инструмент, предлагающий создание детализированных художественных изображений по примитивным эскизам, но отметил, что Stable Doodle работает быстрее аналогов и обеспечивает более качественный результат.

Ещё одним компонентом, обеспечивающим работу инструмента, стал модуль T2I-Adapter, который анализирует входящее изображение и транслирует результат на генеративную ИИ-модель. В качестве дополнительного средства Stable Doodle позволяет оставить текстовое описание для исходного эскиза. Stable Diffusion XL также позволяет выбирать стиль изображения на выходе: «Фотография», «Аниме», «Оригами», «Трёхмерная модель» — всего 14 вариантов.

В Stability AI рассказали, что Stable Doodle окажется полезным инструментом для дизайнеров или иллюстраторов и поможет им сэкономить время. При этом в компании предупредили, что качество изображения на выходе зависит от числа деталей на исходном эскизе, информативности подсказки и сложности поставленной задачи.

Нейросеть Stable Diffusion научили генерировать нормальные человеческие пальцы

Компания Stability AI представила (но впоследствии удалила анонс из блога) обновлённую версию нейросети для генерации изображений по текстовому описанию Stable Diffusion — она получила название SDXL 0.9. По сравнению с предшествующей новая версия обещает создание более качественных и детализированных фотореалистичных картинок.

 Изображение по описанию: «Инопланетяне гуляют среди нас в Лас-Вегасе, найденная плёночная фотография». Слева — работа генератора Stable Diffusion XL, справа —  SDXL 0.9. Источник изображений: stability.ai

Изображения по описанию: «Инопланетяне гуляют среди нас в Лас-Вегасе, найденная плёночная фотография». Слева — работа Stable Diffusion XL, справа — SDXL 0.9. Источник изображений: stability.ai

Разработчик охарактеризовал новую модель искусственного интеллекта как «прорыв в творческих вариантах применения генеративного ИИ изображений». Своё заявление в Stability AI подкрепили парными примерами картинок, созданных моделью Stable Diffusion XL и новой SDXL 0.9: фотореалистичные изображения волка, инопланетянина в Лас-Вегасе, а также человеческой руки с кофейным стаканчиком — во всех случаях новая версия модели предлагает более детализированные и правдоподобные картинки.

 «Волк в Национальном парке Йосемити, документальная съёмка природы»

«Волк в Национальном парке Йосемити, документальная съёмка природы»

В Stability AI добавили, что успеха удалось добиться за счёт значительно увеличения количества параметров обновлённой модели. Подчёркивается, что SDXL 0.9, как и все предшествующие платформы, можно запустить на домашнем компьютере. Системные требования включают 16 Гбайт оперативной памяти и видеокарту NVIDIA серии GeForce RTX 20 и выше с 8 Гбайт памяти на борту. Поддерживаются Windows 10/11 и Linux.

 «Рука с маникюром держит кофе навынос, рассвет в пастельных тонах, пляж, *** и плёночная фотография»

«Рука с маникюром держит кофе навынос, рассвет в пастельных тонах, пляж, Instagram и плёночная фотография»

Обновлённая модель в ближайшее время станет доступной в веб-сервисе Stability AI Clipdrop, а также в приложении DreamStudio. На середину июля намечен выход SDXL 1.0 с открытым исходным кодом.

Stability AI выпустила StableStudio — открытое веб-приложение для генерации изображений с помощью ИИ

Специализирующийся на технологиях искусственного интеллекта стартап Stability AI объявил о выходе StableStudio — открытого пользовательского интерфейса (веб-приложения) для работы с нейросетью Stable Diffusion, генерирующей изображения по текстовому описанию. Фактически это открытая версия платформы DreamStudio.

 Источник изображения: github.com/Stability-AI

Источник изображения: github.com/Stability-AI

Первоначально DreamStudio разрабатывалась как интерфейс для работы с генеративной арт-моделью Disco Diffusion от Google, но с появлением у Stability AI собственной нейросети Stable Diffusion проект стал полноценным конкурентом Midjourney и NightCafe. Отличия коммерческой DreamStudio и открытой StableStudio минимальны — в последней нет специфических для Stability функций учётных записей, таких как управление лицевым счётом и вызовы API. На смену серверному API пришли подключаемые модули. В Stability AI подчеркнули, что DreamStudio остаётся основным продуктом, а StableStudio будет обновляться «по возможности».

Для работы с StableStudio пользователю нужно установить Node.js и Yarn, после чего он сможет клонировать репозиторий, запустить необходимые команды и начать использовать StableStudio. Для подключения стандартного плагина Stability API необходим API-ключ, который можно получить в аккаунте DreamStudio. Подробнее процесс описан на странице StableStudio на Github.

Компания активно выпускает проекты с открытым кодом: различные версии Stable Diffusion публиковались с момента выхода в августе прошлого года, а месяц назад был выпущен набор больших языковых моделей StableLM. Глава Stability AI Эмад Мостак (Emad Mostaque) неоднократно говорил о важности этого направления для повышения общественного доверия к отрасли ИИ. Зарабатывать же компания планирует за счёт разработки индивидуальных версий DreamStudio для корпоративных клиентов.

ИИ-модель смогла нарисовать котёнка на мощностях всего одного смартфона

Для работы генеративных ИИ-моделей, например, создающих изображения по текстовому описанию, обычно требуется ПК с мощной видеокартой или даже ресурсы целого ЦОД. Но в Qualcomm нашли способ запустить модель Stable Diffusion на Android-телефоне Samsung Galaxy S23 с процессором Snapdragon 8 Gen 2.

 Источник изображения: Qualcomm

Источник изображения: Qualcomm

На демонстрации Stable Diffusion поставили задачу создать изображение «супермилого пушистого кота-воина в доспехах». Запущенная на телефоне ИИ-модель справилась с задачей за 14,42 с, то есть близко ко времени, которое показывают десктопы. Для оптимизации ПО под мобильный процессор было применено «квантование» данных — их округление до заданных значений. За счёт этого удалось повысить производительность модели, снизить потребление ресурсов оперативной памяти и потребление энергии. При работе на телефоне ИИ-модель выдаёт изображения в разрешении 512 × 512 пикселей — столько же, сколько предполагает и стандартная версия Stable Diffusion.

Трудно переоценить возможность запуска мощной ИИ-модели локально на телефоне без необходимости открывать веб-сайт или запускать приложение, которое задействует сторонние вычислительные ресурсы. В Qualcomm отметили, что существует множество вариантов использования Stable Diffusion: создание и редактирование изображений, копирование стилей, масштабирование и многое другое. Компания собирается перенести на устройства с процессорами Snapdragon 8 Gen 2 и другие генеративные ИИ-модели.

Getty Images обвинил ИИ-генератор изображений в «наглом нарушении авторских прав в ошеломляющих масштабах»

Фотобанк Getty Images обратился в американский суд с исковым заявлением против компании Stability AI, создавшей генеративную нейросеть Stable Diffusion, обвинив её в нарушении авторских прав. По мнению истца, разработчики использовали без разрешения миллионы изображений Getty Images для обучения своего ИИ-алгоритма.

 Иллюстрация из судебного процесса Getty Images, показывающая оригинальную фотографию и похожее изображение (с водяным знаком Getty Images), созданные с помощью Stable Diffusion. Изображение: Getty Images

Иллюстрация из судебного процесса, показывающая оригинальную фотографию и похожее изображение, сгенерированное Stable Diffusion

Stability AI обвиняется в «наглом нарушении авторских прав интеллектуальной собственности Getty Images в ошеломляющих масштабах». В исковом заявлении сказано, что разработчики алгоритма Stable Diffusion скопировали более 12 млн изображений из базы Getty Images «без разрешения или компенсации», что является нарушением авторских прав.

Этот судебный процесс является очередным столкновением между разработчиками генеративных нейросетей и правообладателями. Дело в том, что для обучения таких алгоритмов требуется огромное количество изображений, которые зачастую берутся из интернета без согласия авторов и правообладателей. В прошлом месяце Getty Images подала иск против Stability AI в британский суд, обвинив разработчиков в нарушении авторских прав.

Эксперты по правовым вопросам заявляют, что дело Getty Images имеет существенную основу, но отмечают, что исход противостояния трудно предсказать, поскольку в прошлом подобных разбирательств в практике не было. Британский учёный Андрес Гуадамаз (Andres Guadamaz), специализирующийся на искусственном интеллекте и авторском праве, считает, что иск Getty Images является хорошо обоснованным. Он отметил, что, вероятнее всего, дело будет рассматриваться с точки зрения нарушения авторских прав, а ответчик постарается доказать, что использовал изображения сервиса добросовестно и не нарушал прав авторов.

Getty Images подала иск к Stable Diffusion за использование миллионов изображений для обучения нейросети

Стоковый сервис Getty Images подал иск против компании Stability AI, стоящей за созданием популярной нейросети Stable Diffusion, обвинив разработчиков последней в нарушении авторских прав. С коллективными исками против создателей «творческих» нейросетей выступают и сами художники.

 Источник изображения: Stable Diffusion

Источник изображения: Stable Diffusion

Сервис считает, что Stability AI «незаконно скопировала и обработала миллионы изображений, защищённых правом на интеллектуальную собственность» для обучения своего программного обеспечения. В Getty Images подчеркнули, что компания не приняла мер для налаживания контактов со стоковым сервисом и получения разрешения на использование материалов авторов. В Stability AI отказались от комментариев.

Иск свидетельствует об эскалации конфликта между авторами контента и правообладателями с одной стороны, и компаниями, занимающимися разработками генеративных ИИ-сетей с другой — стороны борются за признание, прибыль и направление будущего развития креативной индустрии.

ИИ-инструменты вроде Stable Diffusion обучаются за счёт созданных людьми изображений, которые компании исследуют буквально миллионами, очень часто — без уведомления и/или согласия создателей. Стоящие за ИИ компании утверждают, что подобная практика вполне законна, но многие из авторов и правообладателей имеют противоположную точку зрения. Так, группа художниц подала иск к создателям ИИ-генераторов изображений. Им вменяется в вину кража миллиардов защищённых авторским правом картин, которые использовались для обучения умных систем — авторы изображений не получили компенсаций, и их согласия никто не спрашивал.

Ситуация с ИИ-инструментами сегодня сравнивается с эпохой появления цифровой музыки, когда этот сегмент рынка ещё не получил законодательного регулирования, и некоторые компании предлагали популярные, но совершенно нелегальные сервисы — до того, как заключили соглашения с музыкальными лейблами.

Хотя разработчики многих нейросетей предпочитают не раскрывать источники их «вдохновения», Stable Diffusion использует открытую модель, а независимые аналитики обнаружили, что Getty Images и другие сайты подобного назначения используются так часто, что во многих случаях доходит до смешного — ИИ воспроизводит в своих творениях водяные знаки источников.

В Getty Images заявили, что не требуют компенсации нанесённого ущерба или прекращения обучения нейросетей за счёт доступных изображений, скорее, речь идёт о выработке законного механизма для использования подобных технологий.

Впрочем, подобного рода претензии к ИИ имеют не все фотобанки. Ранее появилась информация о том, что сгенерированные изображения будет продавать Shutterstock, затем тем же самым занялся Adobe Stock.


window-new
Soft
Hard
Тренды 🔥
Анонсирован VR-хоррор Alien: Rogue Incursion, который полностью погрузит игроков в ужасы вселенной «Чужого» 4 ч.
Российская пошаговая тактика «Спарта 2035» про элитных наёмников в Африке получила первый геймплей — демоверсия не выйдет 30 апреля 5 ч.
Власти США позвали Сэма Альтмана, Дженсена Хуанга и Сатью Наделлу помочь им с защитой от ИИ 7 ч.
«В команде явно продали души дьяволу»: игроков впечатлила работа Biomutant на Nintendo Switch, но производительность требует жертв 7 ч.
Microsoft открыла исходный код MS-DOS 4.00 и разместила его на GitHub 8 ч.
Большинство россиян не видит угрозы в ИИ 8 ч.
Китайские клавиатурные приложения Honor, Oppo, Samsung, Vivo и Xiaomi оказались уязвимы перед слежкой 8 ч.
Alphabet удалось развеять опасения по поводу отставания в области ИИ 10 ч.
Рекламные доходы YouTube в первом квартале выросли на 21 % до $8,1 млрд 11 ч.
Инсайдер: Capcom отложила релиз Resident Evil 9, но в 2025 году может выйти другая игра серии 14 ч.
Регулятор в США проверит декабрьское обновление автопилота Tesla, которое должно было улучшить безопасность 2 ч.
Новая статья: Обзор QD-OLED DQHD-монитора Samsung Odyssey OLED G9 G95SC: игровой универсал 4 ч.
TSMC научилась создавать монструозные двухэтажные процессоры размером с пластину 6 ч.
Федеральное расследование аварий с автопилотом Tesla нашло их причину — «неправильное использование» 7 ч.
Oppo представила смартфон A60 с Snapdragon 680 и 50-Мп камерой 7 ч.
Япония ужесточит контроль экспорта полупроводников и квантовых технологий куда бы то ни было 7 ч.
Hisense представила ультракороткофокусный лазерный 4K-проектор PX3-PRO для геймеров и киноманов 7 ч.
Intel пожаловалась на производственные проблемы при сборке Core Ultra — из-за этого процессоров не хватает 9 ч.
Великобритания и Новая Зеландия задействуют подводные оптические кабели для распознавания землетрясений и цунами 9 ч.
Объём российского IoT-рынка превысил 35 млрд руб. 9 ч.