Сегодня 25 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → генерация
Быстрый переход

Microsoft показала нейросеть, которая делает говорящие что угодно дипфейки по одному фото

За последние пару лет генеративные нейросети преодолели важный этап развития, став более мощными и способными создавать по текстовому описанию не только изображения, но и видео. Новый алгоритм VASA-1 от Microsoft, вероятно, сумеет удивить многих, поскольку для его работы вообще не нужно описание. Достаточно предоставить одно изображение человека и аудиодорожку, на основе которых нейросеть сгенерирует видео говорящего человека с широким спектром эмоций и естественной мимикой.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Результат работы VASA-1 выглядит очень естественно и правдоподобно. Всего из одного снимка лица и записи голоса алгоритм создаёт реалистичное видео, на котором запечатлённый на снимке человек буквально «оживает», а его мимика, движения губ и головы выглядят вполне натурально. Поскольку созданные с помощью VASA-1 видео с ходу сложно отличить от реальных, уже высказываются опасения по поводу того, что алгоритм может использоваться злоумышленниками для создания фейков.

Что касается самой нейросети, то главным её отличием от других подобных алгоритмов является наличие целостной модели генерации лицевой мимики и движений головы. Специалисты Microsoft провели обширную исследовательскую работу, включая оценку ряда новых метрик. В результате они установили, что новый алгоритм значительно превосходит представленные ранее аналоги по многим параметрам.

«Наш метод не только обеспечивает генерацию видео высокого качества с реалистичной мимикой лица и движениями головы, но также поддерживает функцию онлайн-генерации видео 512×512 точек с частотой 40 кадров в секунду с незначительной начальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими поведение человека во время разговора», — говорится в сообщении Microsoft.

Другими словами, нейросеть может создавать качественные фейковые видео на основе всего одного изображения. Поэтому не удивительно, что Microsoft называет VASA-1 «исследовательской демонстрацией» и не планирует выводить его на коммерческий рынок, по крайней мере, в ближайшее время.

Представлена нейросеть Stable Audio 2.0 для генерации полноценных трёхминутных музыкальных треков с вокалом

Модель ИИ для генерации аудио Stable Audio 2.0 от Stability AI позволяет пользователям загружать свои собственные аудиозаписи, на основе которых ИИ генерирует трёхминутные треки в соответствии с подсказками. По утверждению Stability AI, главное отличие новой версии Stable Audio состоит в создании песен с классической музыкальной структурой: вступлением, развитием и финалом. Тем не менее, эксперты уверены, что на «Грэмми» этим трекам пока рассчитывать не приходится.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Первая версия Stable Audio была выпущена в сентябре 2023 года и предлагала платным пользователям генерацию треков длительностью до 90 секунд, пригодных только для экспериментов. Stable Audio 2.0 генерирует полноценный трёхминутный аудиофайл, что соответствует продолжительности песен для радиовещания. Новая версия Stable Audio полностью бесплатна и доступна как на официальном сайте, так и через API.

Stability AI сообщила, что модель обучалась на данных музыкальной библиотеки AudioSparx из более чем 800 000 композиций, причём артистам была предоставлена возможность запретить использование своего материала для обучения модели. Stable Audio 2.0 позволяет пользователям настраивать проект в широком диапазоне, регулируя степень влияния подсказки и то, какую часть загруженного аудио она будет изменять. Доступно добавление звуковых эффектов.

Исследователи, успевшие поэкспериментировать со Stable Audio 2.0, довольно сдержаны в своих оценках. По мнению одного из них, добавленный генератором вокал похож на звуки, издаваемые китами, другому показалось, что он «случайно вызвал в свой дом потустороннее существо». Эксперты назвали сгенерированные треки «бездушными и странными».

Все загруженные пользователем аудиозаписи не должны нарушать авторских прав. Проблемы с последними стали одной из причин, по которой бывший вице-президент Stability AI Эд Ньютон-Рекс (Ed Newton-Rex) покинул компанию вскоре после запуска Stable Audio. Теперь Stability AI заключила партнёрское соглашение с Audible Magic, чтобы использовать технологию распознавания контента, разработанную компанией, для отслеживания и блокировки попадания на платформу материалов, защищённых авторским правом.

OpenAI сделает ИИ-генератор видео Sora общедоступным позднее в этом году

В феврале OpenAI впервые продемонстрировала нейросеть Sora, способную генерировать реалистичные видео из текстовых описаний. Пока этот инструмент доступен лишь для художников, дизайнеров и кинематографистов. Сегодня технический директор OpenAI Мира Мурати (Mira Murati) сообщила, что Sora станет доступна широкой публике «позднее в этом году». Мурати пообещала, что к способности Sora создавать видео добавится генерация звукового сопровождения, что сделает ролики ещё более реалистичными.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Сейчас OpenAI работает над возможностью редактирования контента в видеороликах Sora, поскольку инструменты искусственного интеллекта не всегда создают точные изображения. «Мы пытаемся выяснить, как использовать эту технологию в качестве инструмента, с помощью которого люди смогут редактировать медиаконтент», — рассказала Мурати.

Мурати уклонилась от ответа на вопрос, какие данные OpenAI использовала для обучения Sora. «Я не собираюсь вдаваться в подробности использованных данных, но это были общедоступные или лицензированные данные», — заявила она. Мурати не подтвердила и не опровергла использование видео с YouTube, Facebook и Instagram. Она отметила, что Sora использует контент фотохостинга Shutterstock, с которым у OpenAI заключено партнёрское соглашение.

Мурати рассказала, что на сегодняшний день Sora отличается от других моделей ИИ повышенными требованиями к вычислительным ресурсам. OpenAI работает над тем, чтобы сделать этот инструмент «доступным по той же цене», что и модель DALL-Eдля преобразования текста в изображение.

Опасения в обществе по поводу инструментов генеративного ИИ и их способности создавать дезинформацию усиливаются. По словам Мурати, Sora не сможет создавать изображения общественных деятелей, как и DALL-E. Видео от Sora также будут включать водяные знаки, но они не являются идеальной защитой и могут быть удалены из видео при помощи ИИ или традиционных технологий.

Люди не смогли отличить созданные нейросетью OpenAI Sora видео от настоящих

Несколько недель назад компания Open AI представила нейросеть Sora, способную по текстовому описанию генерировать реалистичное видео продолжительностью до одной минуты с разрешением 1920 × 1080 пикселей. Теперь же компания HarrisX провела опрос, предлагая взрослым американцам отличить сгенерированное ИИ видео от настоящего. Оказалось, что большая часть респондентов ошиблась в 5 из 8 предлагаемых в рамках опроса роликов.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

В опросе, который проходил в период с 1 по 4 марта в США, участвовали более 1000 американцев. Авторы исследования сгенерировали четыре высококачественных ролика с помощью нейросети Sora, а также выбрали четыре небольших видео, которые были сняты на камеру в реальном мире. Респондентам в случайном порядке показывали эти видео, а их цель была определить, снят ролик человеком или его сгенерировал ИИ. Мнения участников опроса разделились, но при этом в 5 из 8 случаев большая часть респондентов дала неверный ответ.

Это исследование указывает на то, что создаваемый с помощью генеративных нейросетей контент становится всё более реалистичным и отличить его от реального всё труднее. Именно поэтому в разных странах стали чаще звучать призывы к властям о необходимости законодательного регулирования этого сегмента. В числе прочего предлагается обязать пользователей нейросетей помечать генерируемый контент соответствующим образом, чтобы он не вводил других в заблуждение и не мог стать источником дезинформации.

 Источник изображения: variety.com

Источник изображения: variety.com

Алгоритм Sora ещё недоступен широкой публике, но уже сейчас он вызывает серьёзную тревогу в обществе, особенно в индустрии развлечений, где развитие технологий генерации видео влечёт массу негативных последствий, например, для киностудий. Более того, всё чаще поднимается вопрос о том, что подобные Sora алгоритмы могут использоваться для создания фейковых видео с участием политиков и знаменитостей, что может привести к самым непредсказуемым последствиям.

Intel XeSS скоро научится генерировать кадры, но будет делать иначе, чем AMD и NVIDIA

Компания Intel намерена сделать значительный шаг вперед в сфере компьютерных игр, представив в ближайшее время свою технологию генерации кадров для XeSS. Новая разработка, получившая название ExtraSS, будет представлена на выставке SIGGRAPH Asia 2023 в Сиднее и ознаменует собой вступление Intel в конкурентную борьбу с DLSS 3 от NVIDIA и FSR 3 от AMD, которые уже умеют генерировать дополнительные кадры.

Технология масштабирования разрешения Intel XeSS примечательна тем, что работает на любом аппаратном обеспечении, то есть графике не только от Intel, но также от AMD и NVIDIA. Отличительной особенностью XeSS является не только ее совместимость, но и открытый исходный код. Эта особенность позволяет легко интегрировать XeSS в игры, создавая экосистему, в которой XeSS может сосуществовать с другими методами апскейлинга, такими как FSR и DLSS.

Однако в области генерации кадров Intel пока отстаёт. И NVIDIA, и AMD расширили технологические возможности своих DLSS и FSR в этом году, добавив поддержку генерации кадров — метода, который вставляет кадры в поток с помощью технологии интерполяции, то есть на основе данных с предыдущих настоящих кадров. Это стратегическое дополнение направлено на повышение FPS при сохранении оптимального качества изображения

ExtraSS станет расширением для XeSS. В презентации под названием «ExtraSS: фреймворк для совместного пространственного суперсэмплинга и экстраполяции кадров» вице-президент Intel по исследованиям в области графики Антон Капланян (Anton Kaplanyan) и другие авторы предлагают экстраполяцию кадров как ключ к повышению производительности рендеринга в реальном времени.

В области генерации кадров Intel XeSS ExtraSS применяет особый подход, используя «экстраполяцию кадров», а не более распространенную «интерполяцию кадров». Хотя оба метода служат для генерации и вставки кадров в сцену для повышения FPS, ключевое различие заключается в том, как создаются кадры. Фреймворк ExtraSS сочетает пространственный суперсэмплинг и экстраполяцию кадров, достигая тонкого баланса между производительностью и качеством.

Кадровая интерполяция использует несколько образцов для приближения вставляемого кадра, а кадровая экстраполяция использует информацию, выходящую за пределы входного образца, для создания приближения. Следует признать, что экстраполяция может давать меньше артефактов, но может быть менее надежной. Тем не менее, с помощью настроек и оптимизаций XeSS ExtraSS стремится найти баланс, предлагая хорошее качество при более высоком FPS.

«Используя легкие модули искривления и ExtraSSNet для доработки, мы используем пространственно-временную информацию, улучшаем резкость рендеринга, точно обрабатываем движущиеся тени и генерируем временно-стабильные результаты. Вычислительные затраты значительно снижаются по сравнению с традиционными методами рендеринга, что позволяет повысить частоту кадров и получить результаты высокого разрешения без искажений», — пишут исследователи Intel.

В исследовательском документе подчеркиваются различия между интерполяцией и экстраполяцией, отмечается, что хотя кадровая интерполяция дает лучшие результаты, она вносит большую задержку. NVIDIA и AMD решили эту проблему с помощью технологий снижения задержек, таких как Reflex и Anti-Lag. Экстраполяция, с другой стороны, имеет меньшую задержку, но сталкивается с проблемами из-за отсутствия ключевой информации для генерации нового кадра. XeSS ExtraSS стремится преодолеть эту проблему с помощью нового метода деформации, обеспечивая лучшее качество при меньших задержках.

В тестах производительности при рендеринге Intel продемонстрировала свою приверженность кросс-вендорной поддержке, запустив метод XeSS Frame-Generation (экстраполяция) на системе с графическим процессором NVIDIA и процессором AMD Ryzen 9 5950X. Таким образом, Intel стала второй технологией генерации кадров, помимо FSR 3 от AMD, поддерживаемой всеми производителями.

Несмотря на то, что выход Intel на рынок технологий генерации кадров намечен на 2024 год, опыт работы компании с XeSS позволяет говорить о ее стремлении обеспечить качество и поддержку, пусть и с небольшой задержкой относительно AMD и NVIDIA. Технология генерации кадров Intel XeSS ExtraSS обещает открыть новые возможности для рендеринга в реальном времени, расширив границы производительности и фотореалистичного рендеринга в различных областях.

Капля воды создала искровой разряд в 1200 вольт в эксперименте китайских учёных — это разделило воду на водород и кислород

В середине ноября в журнале Science Advances вышла статья исследователей Нанкинского университета аэронавтики и астронавтики, в которой сказано о достижении рекордного уровня разряда от падающей капли воды. Упавшая на специально подготовленную поверхность с высоты 25 см капля вызвала искровой разряд 1200 В, что примерно в четыре раза выше прежнего рекорда. Этой энергии хватило на расщепление воды на кислород и водород.

 Источник изображения: ИИ-генерация Кандинский 2.2/3DNews

Источник изображения: ИИ-генерация Кандинский 2.2/3DNews

В ранее проводимых экспериментах выходное напряжение насыщения не превышало 350 В. Заряд возникает в процессе падения капли с высоты на наклонную поверхность. При соприкосновении капли с поверхностью возникает двойной электрический слой, делая всю систему похожей на суперконденсатор. Величина напряжения насыщения зависит от скорости скатывания капли по поверхности и от её растекания по поверхности. Как заявили учёные, приблизиться к теоретически возможному пределу выходного напряжения мешало недостаточное понимание физики процесса.

 Источник изображений: Science Advances

Источник изображений: Science Advances

В ходе эксперимента исследователи снимали падение капли на наклонную поверхность высокоскоростной камерой и соотносили эти данные с результатами измерений электрических характеристик процесса. Позже на основе полученных данных была построена убедительная модель. Работа помогла приблизиться к теоретическому пределу выходного напряжения в результате процесса.

Номинально величина искрового разряда достигла значения 1200 В. Этого оказалось достаточно, чтобы капля обычной водопроводной воды при нормальном атмосферном давлении и температуре, падающая на подготовленную наклонную поверхность, вызывала искровой разряд достаточной для ионизации газа силы. В своём опыте учёные, например, показали процессы ионизации гелия, а также разложения воды на кислород и водород, что может найти применение в передовых установках по добыче водорода.

«Сбер» научил GigaChat создавать уникальную музыку по текстовому описанию

«Сбер» научил своего ИИ-чат-бота GigaChat генерировать музыкальные композиции по текстовым запросам пользователей. Новостью поделился вице-президент по цифровым поверхностям «Салют» Сбербанка Денис Филиппов в рамках международной конференции по искусственному интеллекту AI Jorney 2023. Возможности сервиса были расширены путём интеграции нейросетей CLaMP и SymFormer.

Для создания музыки человек может просто сформулировать задачу. К примеру задать следующее описание: «Сочини весёлую музыку в стиле кантри» или «Напиши композицию для лаундж-зоны бизнес-центра». В результате GigaChat создаст аудиофайл с уникальной музыкальной дорожкой, а также нотную партитуру в формате MIDI, совместимую с любой DAW (Digital Audio Workstation). После этого пользователь сможет скачать и прослушать получившуюся музыку, а MIDI-файл — использовать в своих творческих проектах: редактировать гармонии, менять аранжировку и получать разнообразные варианты звучания композиции.

Генерация музыки стала возможна в GigaChat благодаря интеграции нейросетей CLaMP и SymFormer. Для обучения SymFormer применили платформу ML Space на базе суперкомпьютера Christofari и датасет из более чем 200 тысяч композиций разных музыкальных стилей: от классики до современной электронной и тяжёлой музыки. В основе модели генерации композиций лежит принцип рассмотрения музыки в качестве нотного текста — в этом помогла адаптация подхода text-2-image к нотному домену.

Отмечается, что создание музыкальных треков происходит в несколько этапов:

  1. Текстовый запрос пользователя с помощью модели CLaMP конвертируется в понятный для генератора мелодий язык.
  2. Данные от CLaMP, включая информацию о стиле, поступают на вход SysFormer, которая выполняет генерацию нескольких вариантов мультидорожечной композиции, из которых нейросеть выбирает наиболее удачные варианты по стилю.
  3. На последнем этапе генерации механизм рендеринга формирует аудиофайл и отправляет результат пользователю.

«Новые возможности GigaChat будут полезны не только музыкальным энтузиастам и представителям творческих профессий. Одним из сегментов целевой аудитории сервиса мы видим представителей малого и среднего бизнеса. Благодаря GigaChat они смогут быстро, качественно и, что важно, абсолютно легально решать задачи бизнеса: создавать фоновое музыкальное сопровождение для кафе, залов ожидания и салонов красоты, создавать мелодии для рекламных видеороликов и соцсетей», — поясняет Денис Филиппов.

Напомним, что ранее этой осенью в рамках культурной программы Восточного экономического форума (ВЭФ) во Владивостоке состоялся первый в мире симфонический концерт с импровизациями, созданными искусственным интеллектом. Нейросеть SymFormer выступила на этом концерте вместе с оркестром Мариинского театра Приморской сцены. В первой части симфонии «Космос», написанной композитором Петром Дранга, SymFormer управляла экспрессивностью исполнения. В третьей и четвёртой частях симфонии нейросеть импровизировала в режиме реального времени на основе информации, полученной от партитуры музыканта.

«Сбер» представил нейросеть Kandinsky Video — она генерирует 8-секундные видео по текстовому описанию

«Сбер» представил нейросеть Kandinsky Video, способную создавать небольшие ролики по текстовому описанию. Алгоритм генерирует видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду. Новинка была презентована в рамках конференции AI Journey первым заместителем председателя правления «Сбербанка» Александром Ведяхиным.

 Источник изображения: sberbank.com

Источник изображения: sberbank.com

Архитектура Kandinsky Video включает в себя два основных блока. Первый блок отвечает за генерацию ключевых кадров, используемых для создания структуры сюжета видео, а второй — генерирует интерполяционные кадры, за счёт чего достигается плавность движения в финальном ролике. Оба блока построены на базе модели синтеза изображений по текстовым описаниям Kandinsky 3.0.

В конечном счёте алгоритм создаёт видео с движением как объекта, так и фона. Это отличает сгенерированные нейросетью видео от анимационных роликов, в которых динамика достигается за счёт моделирования полёта камеры относительно статичной сцены. В настоящее время Kandinsky Video может создавать видео с разрешением 512 × 512 пикселей и разным соотношением сторон. Для обучения алгоритма использовался датасет из более чем 300 тыс. пар «текст-видео». Сам же процесс генерации ролика занимает до 3 минут.

Отмечается, что ранее некоторые пользователи нейросети Kandinsky 2.2 в тестовом режиме получили доступ к функции создания анимационных роликов. Всего одного запроса достаточно для генерации видео продолжительностью до 4 секунд с выбранными эффектами анимации, частотой 24 кадра в секунду и разрешением 640 × 640 пикселей. Пользователи новой версии Kandinsky 3.0 также могут генерировать ролики по текстовому описанию в режиме анимации.

Microsoft начала тестировать ИИ-генератор изображений в Paint для Windows 11

На этой неделе Microsoft выпустила очередную бета-версию графического редактора Paint для Windows 11. Помимо прочего, в ней реализована ИИ-функция Cocreator, с помощью которой можно генерировать изображения по текстовому описанию. Теперь же приложение стало доступно участникам программы предварительной оценки Windows Insider на каналах Dev и Canary.

 Источник изображений: Microsoft

Источник изображений: Microsoft

Функция генерации изображений по текстовому описанию опирается на работу нейросети DALL-E, созданной разработчиками из OpenAI. Она позволяет создавать уникальные изображения по короткому текстовому описанию. В дополнение к этому пользователь может выбрать стиль будущего изображения. После генерации пользователю будет предложено три варианта изображения. Выбрав один из них можно продолжить редактирование сгенерированной картинки, например, добавить слои, что также является нововведением для Paint.

После загрузки Paint 11.2309.20.0 необходимо авторизоваться в своей учётной записи Microsoft. В Paint появилась кнопка Cocreator, нажав на которую пользователь будет добавлен к списку ожидания. Когда возможность использования инструмента Cocreator станет доступна, поступит соответствующее уведомление. В рамках тестирования Cocreator пользователям будут доступны 50 кредитов для генерации картинок. За каждое использование ИИ-функции списывается один кредит.

Microsoft планирует постепенно внедрять новую функцию, и в течение следующих нескольких недель она должна стать доступна всем пользователям Windows 11, установившим последнее функциональное обновление. Однако сейчас испытать функцию Cocreator могут только инсайдеры.

YouTube наполнится генеративным ИИ — он будет выполнять дубляж, создавать фоны для видео и помогать с идеями

В рамках мероприятия Made on YouTube видеосервис анонсировал ряд любопытных новинок, предназначенных для создателей контента. Как и следовало ожидать, в скором времени всё больше роликов на платформе будет создаваться с использованием генеративных нейросетей. На данном этапе наиболее заметными нововведениями станут возможность генерации фото- и видеофона, идей и схем для новых роликов, а также функция дубляжа контента на другие языки.

 Источник изобраежний: YouTube

Источник изобраежний: YouTube

Новая функция Dream Screen позволит генерировать с помощью нейросети видео и изображения, которые в дальнейшем авторы контента смогут использовать в качестве фона для своих коротких видеороликов в Shorts. На начальном этапе генерация таких видео и фото будет осуществляться на основе подсказок пользователя. В дальнейшем, по словам представителей YouTube, авторы контента получат возможность создавать ремиксы и редактировать существующие ролики с помощью набора ИИ-инструментов, чтобы получить что-то новое. Во время демонстрации возможностей функции Dream Screen в ходе презентации фоновые изображения на основе подсказок генерировались в течение считанных секунд.

Новая функция на основе ИИ в YouTube Studio будет генерировать идеи и схемы для потенциальных роликов. Согласно имеющимся данным, авторы контента будут получать персонализированные рекомендации, основанные на том, какой контент популярен среди их аудитории. В дополнение к этому алгоритм сможет на основе текстового запроса подбирать музыку для видео по его описанию.

Ещё YouTube анонсировал функцию дубляжа на базе искусственного интеллекта. С её помощью авторы контента смогут дублировать свои ролики на разные языки. Этот инструмент разрабатывался специалистами команды Aloud, входящей в инкубатор стартапов Area 120.

Появление новых ИИ-функций на YouTube может ознаменовать сдвиг в том, как авторы планируют, создают и структурируют свой контент. Постепенно созданный с использованием генеративных нейросетей контент станет более распространённым. На фоне роста количества сгенерированного контента другие популярные платформы, такие как TikTok, уже используют специальные метки, которыми помечается контент, созданный ИИ.

WhatsApp начал тестировать ИИ для генерации стикеров

Разработчики из Meta Platforms продолжают интегрировать в мессенджер WhatsApp новые функции, которые могут стать популярными среди пользователей. На этот раз в бета-версии мессенджера для платформы Android появилась возможность использования нейросети для генерации стикеров по текстовому описанию. На данном этапе функция доступна ограниченному числе пользователей бета-версии WhatsApp для Android под номером 2.23.17.14.

 Источник изображения: geralt / Pixabay

Источник изображения: geralt / Pixabay

Какая именно нейросеть используется для генерации стикеров по текстовому описанию в WhatsApp, пока неизвестно. В описании лишь сказано, что стикеры генерируются с помощью «безопасной технологии, предлагаемой Meta». Ожидается, что пользователи смогут с помощью текстового описания создавать простые персонализированные изображения, которые можно будет задействовать в качестве стикеров.

 Источник изображения: WABetaInfo

Источник изображения: WABetaInfo

Пользователи смогут реагировать на сгенерированные стикеры и сообщать администраторам в случае, если те или иные картинки будут казаться им неуместными. Согласно имеющимся данным, созданные с помощью ИИ-алгоритма стикеры легко распознаются, что предполагает наличие водяных знаков, которыми они будут помечаться, или каких-то иных отметок, указывающих на то, что изображения созданы нейросетью. По данным источника, Meta также работает над тем, чтобы интегрировать в Instagram специальные метки, которыми будет помечаться контент, созданный с использованием нейросетей.

Meta✴ представила AudioCraft — генератор музыки и шума на основе искусственного интеллекта

Meta представила ИИ-генератор музыки AudioCraft с открытым исходным кодом, который создаёт аудио, полностью основываясь на текстовом запросе пользователя. AudioCraft объединяет три отдельные модели ИИ: MusicGen предназначена для создания музыки и обучена на «20 000 часов музыки, принадлежащей Meta или лицензированной специально для этой цели», AudioGen генерирует звуки и эффекты окружающей среды, а EnCodec обеспечивает качественную обработку звука.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Музыканты давно экспериментируют с электронным звуком, но компьютерные программы создают музыку на основе существующих звуковых сэмплов. Аудио от AudioCraft генерируется лишь из текстовой подсказки. Meta предоставила журналистам образцы аудио, сгенерированного при помощи AudioCraft. Шумовые эффекты, такие как свист, ветер, вой сирен и автомобильные сигналы звучали весьма достоверно. А вот гитарные партии показались слушателям неестественными.

Сейчас музыка, сгенерированная AudioCraft, больше всего напоминает muzak (слегка пренебрежительный термин, применяемый для большинства форм фоновой музыки, независимо от источника, «музыка для лифта») или непритязательный атмосферный эмбиент, и не претендует на роль следующего большого поп-хита. Тем не менее, Meta считает, что AudioCraft может открыть новую волну музыкальной моды, как это когда-то сделали первые синтезаторы.

Meta признала сложность создания моделей ИИ для генерации музыки, по утверждению представителя компании эта задача на несколько порядков труднее, чем генерация текста при помощи ИИ, подобного Llama 2. Компания полагает, что открытый исходный код AudioCraft поможет разнообразить данные, используемые для его обучения.

«Мы понимаем, что наборы данных, используемые для обучения наших моделей, не отличаются разнообразием: большая часть музыки в западном стиле, пары аудио-текст с текстом и метаданными написаны на английском языке, — пояснил представитель Мета. — Поделившись кодом для AudioCraft, мы надеемся, что другим исследователям будет легче тестировать новые подходы к ограничению или устранению потенциальной предвзятости и неправильного использования генеративных моделей».

Meta — далеко не пионер в области генерации аудио при помощи ИИ. Большая языковая модель MusicLM от Google вполне успешно генерирует аудио, правда доступна она только исследователям. Сгенерированная ИИ песня с голосовым сходством Drake и The Weeknd мгновенно стала вирусной. Недавно Граймс (Grimes) разрешила использовать имитацию своего голоса в треках ИИ. В свою очередь, звукозаписывающие лейблы и артисты уже забили тревогу, поскольку многие модели ИИ могут использовать для обучения материалы, защищённые авторским правом.

Adobe научила Photoshop расширять и дорисовывать изображения с помощью ИИ

В мае этого года Adobe интегрировала в бета-версию графического редактора Photoshop ИИ-инструмент, позволяющий пользователям масштабировать изображения, добавлять и удалять объекты с помощью текстовых команд. Теперь же разработчики добавили новые функции за счёт запуска универсального инструмента Generative Expand, который на этой неделе стал доступен участникам программы бета-тестирования Photoshop.

 Источник изображения: 9to5mac.com

Источник изображения: 9to5mac.com

Новый инструмент может оказаться полезным для выполнения разных действий. С его помощью можно расширить обрабатываемое изображение с текстовой подсказкой или без неё для создания продолжения сцены. Достаточно выделить область рядом с обрабатываемым изображением или вокруг него, а ИИ-инструмент сгенирирует всё остальное. Если не указывать текстовую подсказку, то выделенная область будет заполнена объектами, которые логично вписываются в общую композицию. Если же указать текстовую подсказку, то ИИ дорисует окружение в соответствии с пожеланием пользователя.

Ещё с помощью нового инструмента можно изменить соотношение сторон, например, сделав из горизонтального изображения картинку размером с обложку журнала. Доступна возможность получения точной композиции путём обрезки изображения в одном направлении и расширения в другом направлении, причём всё это осуществляется в рамках одного простого рабочего процесса.

Generative Expand может многократно расширить обрабатываемое изображение, заполнить свободное пространство при повороте картинки и др. Новый ИИ-инструмент имеет массу других возможностей, которые помогут авторам контента при выполнении разных задач. Инструмент Generative Expand и функция генеративной заливки Adobe получили поддержку более 100 языков. На данном этапе они доступны в бета-версии Photoshop. Когда нововведения появятся в стабильной версии графического редактора, пока неизвестно.

Сжатый воздух и горячий песок помогут аккумулировать излишки солнечной энергии в Англии

Британская компания Cheesecake Energy договорилась создать в английском городе Колчестер комплекс для демонстрации технологии накопления и хранения возобновляемой энергии в сжатом воздухе и нагретом песке. Аккумулирующая установка собирается в стандартных 6-м грузовых контейнерах из подручных материалов и может служить примером малобюджетной альтернативы хранению энергии в литиевых батареях.

 Источник изображения: Cheesecake Energy

Источник изображения: Cheesecake Energy

«У нас есть реальные проблемы в Великобритании, где застройщики хотят построить жилые комплексы или новые коммерческие объекты, а им в основном говорят: "Вы сможете получить достаточно [зелёной] энергии для этого в 2030 году", — рассказал соучредитель компании Cheesecake Energy Майкл Симпсон (Michael Simpson). — Для них распределительные сети развиваются недостаточно быстро».

Предложение Cheesecake Energy отличается простотой и дешевизной. В составе комплекса присутствует солнечная электростанция (в проекте Колчестера она будет 8-МВт). Днём избыток электричества подаётся на аккумулирующее устройство. В его состав входят переделанные двигатели от грузовиков Volvo, генераторы, компрессоры, ёмкости с песком и баки для хранения воздуха под давлением.

С помощью излишков энергии система закачивает воздух в баки, а выделяемое в процессе сжатия тепло отводит в бункеры с песком и гравием. Чтобы отдать энергию ночью или при повышенном потреблении, система запускается в обратном порядке. Воздух стравливается и нагревается, после чего в процессе расширения раскручивает валы генераторов и вырабатывает энергию. По словам разработчиков, на номинальной мощности установка способна работать от 5 до 12 часов. Цена вопроса — всего 500 тыс. фунтов стерлингов ($630 тыс.). Количество контейнеров можно масштабировать.

В Колчестере система Cheesecake Energy будет запущена в 2024 году. Если она себя зарекомендует, последуют другие заказы. Производителю не нужны будут дорогие компоненты и дорогой литий. Сырьё для накопления энергии буквально лежит под ногами.

Если речь идёт об аккумулировании тепла без перевода его в электрическую энергию, то решение может быть ещё эффективнее. В знаменитой своими разработками Окриджской национальной лаборатории (ORNL) в прошлом году даже создали специальную группу для поиска подобных решений применительно к архитектуре. Группа разрабатывает методы аккумулирования тепла в зданиях, чтобы перевести их на частичное самообеспечение энергией. Это непростой вопрос, и он требует государственной поддержки, поскольку инвестиции будут очень и очень долгосрочными. Бизнес на такое вряд ли будет готов.

Другая компания — нидерландская Kyoto Group — предлагает установки для хранения тепла и отдачи его по запросу. Подобная услуга может быть востребована в энергоёмкой промышленности, например, сталелитейной или при производстве картона. Установка Kyoto Group хранит тепло в расплаве солей при температуре до 400 °C — оно получается либо напрямую от источника тепла, либо при использовании для нагрева излишков электричества. На выходе установка выдаёт водяной пар нужной температуры. Опытная установка уже обслуживает производство бумаги под Копенгагеном, выдавая в нагрузку разогретый до 180 °C пар.

 Источник изображения: Kyoto Group

Источник изображения: Kyoto Group

Нетрудно представить, что выгоду из подобных систем можно извлечь только при строжайшей оптимизации. Следить за меняющимися ценами, прогнозом погоды, режимами работы установок и многим другим лучше доверить компьютеру, а не живому оператору. Этим заняты разработчики соответствующих программ, например, компания Maplewell Energy из Колорадо. Компания помогла одному из продуктовых магазинов таким образом автоматизировать работу холодильников, что они сами выходили на повышенную мощность в моменты самых низких цен на электричество, набирая несколько резервных градусов для отключения на время, когда цены на электричество повышались.

«Получение на 100 % декарбонизированной распределительной энергосети — это не что иное, как проблема оптимизации», — утверждает глава Maplewell Мэтью Ирвин (Matthew Irvin).

Учёные обнаружили простой способ извлечения электричества прямо из воздуха

Воздух буквально пропитан электричеством, заявляют учёные. Его можно добывать из атмосферы где угодно и когда угодно. Наглядный пример — это грозы. Грозу можно воссоздать на уровне отдельных молекул и это может стать фактически бесконечным источником энергии, рассказали исследователи из США.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Проблемой добычи электричества из воздуха давно занимаются учёные из Массачусетского технологического университета в Амхерсте (UMass Amherst). Много лет они экспериментируют с культурами бактерий Geobacter sulfurreducens. В серии научных работ исследователи показали, что наноструктуры из бактерий и продуктов их жизнедеятельности способны вырабатывать электричество. Бактерии производят белковые нити нанометровой толщины и тем самым создают среду для надёжной абсорбации влаги из воздуха. На основе разработки, например, учёные представили пластырь, вырабатывающий электричество при сборе пота человека.

 Источник изображения: Xinying Liu

Источник изображения: Xinying Liu

Объёмный материал из множества нанонитей создаёт в своей толще перепад уровня влажности между одним электродом и другим, и запускает процесс ионизации во влажной среде. Это естественным образом ведёт к возникновению разности потенциалов на электродах и к протеканию тока, если к ним подключить нагрузку. Всё что нужно для работы такого генератора — это влага в воздухе, а она есть даже в пустыне.

Дальнейшие работы по совершенствованию «воздушного» генератора привели к удивительному открытию. Оказалось, что для его создания бактерии совершенно не нужны. Генератор можно создать из множества легкодоступных материалов, но главное соблюсти определённые условия. Ключевое из них — это создание перепада влажности, а как его добиться — это дело десятое.

 Доказательство концепции в однгой из предыдущих работк группы. Источник изображения: Nature

Доказательство концепции в одной из предыдущих работ группы UMass Amherst. Источник изображения: Nature

В самом простом случае генератор по извлечению электричества из воздуха представляет собой две лежащие друг на друге перфорированные плёнки. Перфорация выбирается такой, чтобы молекулы воды проникали сквозь неё с трудом, в частности, для атмосферной влаги — это 100 нм. Тем самым на верхней плёнке скапливается больше влаги, чем на нижней и таких слоёв может быть множество — это своего рода насыщенное влагой грозовое облако.

Для влажных районов материал может быть один, для пустынных областей — другой, и всё это без какой-либо возни с бактериальными колониями, о чём исследователи рассказали в журнале Advanced Materials. Таким образом, заключают учёные, из многослойных структур можно создавать генераторы электричества из воздуха киловаттного уровня и это звучит потрясающе.


window-new
Soft
Hard
Тренды 🔥
Телескоп «Хаббл» отметил 34-ю годовщину работы красочным изображением туманности Гантель 30 мин.
Контрактное производство электроники в России выросло за прошлый год в полтора раза 46 мин.
Micron получит $6,1 млрд госсредств на строительство полупроводниковых заводов в США 49 мин.
Испарение воды от света уже стало научным шоком, а теперь учёные выяснили, как лучше светить на воду 2 ч.
Seagate: надёжность HAMR HDD ничуть не хуже, чем у PMR-дисков 2 ч.
Xiaomi набрала 75 723 заказа на электромобиль SU7 и к июню намерена выпускать по 10 000 машин в месяц 2 ч.
У Seagate упала квартальная выручка, но компания показала чистую прибыль 3 ч.
Tesla в течение квартала инвестировала в ИИ-инфраструктуру около $1 млрд 3 ч.
Скандал в EKWB разрастается: сотрудники пожаловались на нездоровый климат в компании 3 ч.
Одноплатный компьютер ASRock SBC-262M-WT получил чип Intel Amston Lake и три коннектора M.2 3 ч.