Сегодня 21 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → голос
Быстрый переход

Поговорить с ChatGPT теперь можно в веб-версии сервиса — там появился голосовой интерфейс Advanced Voice Mode

Компания OpenAI запустила голосовой интерфейс Advanced Voice Mode в веб-версии сервиса ChatGPT. Об этом через свою страницу в соцсети X сообщил директор по продуктам компании Кевин Вейл (Kevin Weil). Продвинутый голосовой интерфейс по-прежнему доступен только платным пользователям ChatGPT.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

Голосовой интерфейс Advanced Voice Mode стал доступен для владельцев подписок Plus, Enterprise, Teams или Edu теперь и в веб-версии сервиса ChatGPT. С момента своего дебюта в сентябре продвинутый интерфейс был доступен только в мобильной версии ChatGPT для iOS и Android.

Голосовой интерфейс Advanced Voice Mode использует аудиовозможности ИИ-модели GPT-4o, предлагая естественное общение в реальном времени между пользователем и ChatGPT. Чат-бот способен понимать и реагировать на невербальные сигналы пользователя, включая такие вещи, как скорость речи. Кроме того, он может реагировать с «эмоциями».

Для начала разговора в веб-версии чат-бота необходимо выбрать значок «Голос» в правом нижнем углу у поля ввода запросов к ChatGPT. Затем необходимо предоставить браузеру разрешение на доступ к микрофону вашего компьютера. После начала голосового чата пользователь попадёт на экран с синим шаром в центре.

Функция предлагает на выбор один из девяти голосов для ChatGPT, каждый из которых имеет свой собственный тон и характер. Например, можно выбрать «лёгкий и универсальный стиль Arbor» или «уверенный и оптимистичный Ember».

По словам Вайля, OpenAI планирует «в ближайшие недели» внедрить голосовой формат общения с ChatGPT и для бесплатных пользователей. Владельцы подписок Plus и Team могут использовать голосовой формат Advanced Voice Mode лишь определённое количество времени в сутки.

Система уведомит, когда у пользователя останется последние 15 минут ежедневного доступа к голосовому общению с ИИ-ботом. Бесплатным пользователям будет предлагаться доступ на непродолжительное время для знакомства с функцией.

В Калифорнии приняли законы о защите артистов от искусственного интеллекта

Достижения в области генеративного ИИ ставят под угрозу существование многих творческих профессий. Актёры опасаются, что имитация их образов может стать обычным явлением. Губернатор Калифорнии Гэвин Ньюсом (Gavin Newsom) подписал 17 сентября два законопроекта, которые призваны помочь актёрам, музыкантам и другим исполнителям защитить свои цифровые копии в аудио- и визуальных постановках от копирования при помощи искусственного интеллекта.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Подписание этих законопроектов стало реакцией на обоснованную обеспокоенность общества в отношении бума искусственного интеллекта, в процессе которого большие языковые модели, обученные на соответствующем материале, в состоянии создавать фейковые видео, изображения и аудиоматериалы, с высокой точностью имитирующие реальных людей. В связи с этим многие эксперты подняли правовые и этические вопросы использования ИИ.

Один из законопроектов, подписанных Ньюсомом, требует, чтобы в «контрактах указывалось использование созданных ИИ цифровых копий голоса или образа исполнителя, а исполнитель должен быть профессионально представлен при обсуждении контракта».

Другой законопроект запрещает «коммерческое использование цифровых копий умерших исполнителей в фильмах, телешоу, видеоиграх, аудиокнигах, звукозаписях и многом другом без предварительного получения согласия наследников этих исполнителей».

В марте губернатор Теннесси Билл Ли (Bill Lee) подписал подобный законопроект, направленный на защиту артистов, включая музыкантов, от несанкционированного использования их образов и голосов искусственным интеллектом.

Ранее администрация президента США пыталась оказать давление на законодателей с целью регулирования ИИ, но поляризованный Конгресс США, где республиканцы контролируют Палату представителей, а демократы контролируют Сенат, не добился большого прогресса в разработке и принятии эффективного законодательства.

Евросоюз смог дальше продвинуться в этом направлении: европейский «Закон об ИИ», основанный на оценке рисков, вступил в силу 1 августа 2024 года. Положения документа будут внедряться поэтапно вплоть до середины 2026 года. Уже через шесть месяцев планируется обеспечить соблюдение запретов на несколько видов использования ИИ в конкретных сценариях.

OpenAI открыла доступ к гиперреалистичному голосу ChatGPT некоторым платным пользователям

OpenAI начала развёртывать голосовой интерфейс Advanced Voice Mode для сервиса ChatGPT — доступ к гиперреалистичным диалогам с GPT-4o получило небольшое число подписчиков ChatGPT Plus. Разработчик пообещал, что к осени новой функцией смогут пользоваться все обладатели платной подписки.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

Впервые OpenAI продемонстрировала голосовой формат GPT-4o в мае — тогда эта функция поразила аудиторию не только способностью давать быстрые ответы, но и сходством одного из голосов с голосом Скарлетт Йоханссон (Scarlett Johansson). Актриса заявила, что отказала главе компании Сэму Альтману (Sam Altman) в праве использовать её голос для этих целей; после чего ей пришлось обратиться к юристам для защиты своих интересов, и в OpenAI отказались от своих намерений, чтобы не доводить дело до конфликта. В июне компания сообщила, что отложит выпуск голосового интерфейса, чтобы завершить разработку мер безопасности.

Анонсированные ранее функции ИИ-помощника, такие как поддержка видео и демонстрация экрана, на этапе альфа-тестирования доступны не будут, а появятся «позже». Пока пользователям придётся ограничиться голосовым взаимодействием. Ранее для реализации этой функции OpenAI подключала три модели ИИ: одну для преобразования голоса в текст, вторую (GPT-4) для собственно обработки запросов, а третью для преобразования текстового ответа ChatGPT в голос. Обновлённая GPT-4o является мультимодальной — она решает все эти задачи самостоятельно, обеспечивая минимальную задержку. Модель также способна распознавать в голосе пользователя эмоциональные интонации, определяя, например, грусть или волнение, она также знает, когда человек поёт.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

OpenAI будет развёртывать голосовой интерфейс ChatGPT постепенно, чтобы внимательно следить, как он используется в действительности. Включённые в группу альфа-тестирования пользователи получат уведомление через приложение ChatGPT, за которым последует письмо с инструкциями по работе с новыми функциями. К настоящему моменту голосовые возможности GPT-4o протестированы более чем сотней членов закрытой команды тестирования Red Team, говорящих на 45 языках.

Голосовой режим ChatGPT будет ограничен четырьмя голосами: Juniper, Breeze, Cove и Ember, которые были созданы при участии актёров. Голос Sky, который сравнивали с голосом Скарлетт Йоханссон, компания исключила. OpenAI также сообщила, что установила фильтры для блокировки запросов на создание музыки и других материалов, которые могут быть защищены авторским правом — для стартапов Suno и Udio это закончилось судебными исками от крупных музыкальных издателей.

Государство получит право использовать голоса россиян после их смерти без согласия родственников

Голоса россиян будут защищены от неправомерного использования — это регламентирует проект закона «Об охране голоса», разработанный Альянсом в сфере ИИ и Национальной федерацией музыкальной индустрии (НФМИ). Вместе с тем государство получит право использовать в общественных интересах голос гражданина после его смерти без согласия родственников. Об этом сообщили «Ведомости» со ссылкой на заявление члена Совета Федерации по конституционному законодательству и госстроительству Артёма Шейкина, а также разработчиков документа.

 Источник изображения: Soundtrap / unsplash.com

Источник изображения: Soundtrap / unsplash.com

Законопроект предусматривает внесение изменений в Гражданский кодекс (ГК). В общем случае для обнародования и дальнейшего использования голоса гражданина требуется его согласие; после его смерти согласие необходимо получать у супруга, детей или родителей. Но если голос предполагается использовать в государственных или общественных интересах, то такое согласие не требуется — при условии, что голос записывался за плату или в публичных местах.

Документ описывает механизм правовой защиты голоса от неправомерного использования и создания дипфейков на основе его записей. В рамках работы секции «Искусственный интеллект» Совета по развитию цифровой экономики при Совете Федерации анализировались предложения экспертов и профильных ведомств по определению дипфейка. «Сейчас мы находимся на завершающем этапе проработки этого определения, которое будет закреплено в законопроекте», — сообщил господин Шейкин. Уже готовится итоговая версия законопроекта — после получения отзыва от правительства он будет внесён в Госдуму.

 Источник изображения: Studio_Iris / pixabay.com

Источник изображения: Studio_Iris / pixabay.com

«Если голос гражданина, воссозданный с помощью специальных технологий, получен или используется в интернете с нарушением закона, гражданин вправе требовать удаления этой записи, а также пресечения или запрещения её дальнейшего использования и распространения», — считает Артём Шейкин. Нарушения ГК предусматривают последствия в виде возмещения убытков и вреда, выплат неустойки, приостановления или прекращения определённой деятельности, возврата неосновательного обогащения и другие меры. Российское законодательство в существующем виде охраняет лишь фотографическое изображение человека, а нормы, которые защищают артистов и дикторов от использования их синтезированных голосов и цифровых образов, пока отсутствуют, отметили в НФМИ.

Речевые особенности человека не охраняются правом ни в одной стране мира, отмечают опрошенные «Ведомостями» эксперты, хотя в России действуют законы «О персональных данных» и «О биометрических данных», которые требуют обрабатывать данные, включая голос, лишь с согласия человека. Принятие нового закона сформирует базу для разрешения споров в области прав на голос — к примеру, до сих пор нет ясности, кому принадлежит воспроизведённый нейросетью голос человека: ему самому или разработчику этой нейросети. Так, американская актриса Скарлетт Йоханссон (Scarlett Johansson) уже минимум дважды была вынуждена отстаивать право на собственный голос.

Сейчас также распространилась мошенническая схема с использованием сгенерированных голосовых записей, призванных убедить жертву перевести деньги злоумышленникам. Предложенный законопроект конкретных мер ответственности за неправомерное использование голоса не предусматривает, но есть и другой, который предусматривает внесение поправок уже в Уголовный кодекс РФ — он также ещё не внесён в Госдуму.

Скарлетт Йоханссон запретила использовать свой голос для ChatGPT — OpenAI не послушалась и пытается договориться

Скарлетт Йоханссон (Scarlett Johansson) заявила, что OpenAI обращалась к ней с просьбой стать голосом ChatGPT, а после отказа компания продолжила работать в этом направлении и запустила систему с голосом, очень похожим на её. В этой связи, сообщила актриса, она была «вынуждена нанять адвоката»; она также направила в OpenAI два письма с просьбой разъяснить ситуацию. В OpenAI рассказали, что пытаются договориться с актрисой.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

«В сентябре прошлого года мне поступило предложение от Сэма Альтмана (Sam Altman), который хотел нанять меня для озвучения актуальной системы ChatGPT 4.0», — рассказала Йоханссон. По её словам, Альтман связался с её агентом всего за два дня до того, как OpenAI дополнила ChatGPT голосовыми технологиями — тогда актриса призвала компанию пересмотреть своё решение. Альтман признавался, что восхищается работой Йоханссон. Он называл фильм «Она», в котором актриса озвучила голосового помощника с искусственным интеллектом, своей любимой картиной. А на минувшей неделе, когда было представлено очередное обновление ChatGPT, гендиректор OpenAI разместил в соцсети X публикацию с одним лишь словом «Она».

Вместе с тем, он отверг связь между голосом Sky в ChatGPT и голосом актрисы. «Голос Sky не принадлежит Скарлетт Йоханссон, и никогда не существовало задумки, чтобы он напоминал её голос. Прежде чем обращаться к мисс Йоханссон, мы выбрали актрису для озвучения Sky. Из уважения к мисс Йоханссон мы приостановили работу голоса Sky в наших продуктах. Жаль, что у нас не получилось пообщаться с мисс Йоханссон лучше», — заявил Альтман ресурсу The Verge. Вариант голоса Sky стал доступен в ChatGPT с сентября прошлого года, но его сходство с голосом Скарлетт Йоханссон стало очевидным лишь с последним обновлениям чат-бота: по словам актрисы, она была «шокирована, разгневана и не поверила тому», насколько «устрашающе похожим» показался голос Sky ей самой.

О намерении подать на OpenAI в суд она пока не говорила — пока актриса только хочет объяснений. Она говорит, что ищет «решения в прозрачной форме» и просит компанию «подробно описать точный процесс, с помощью которого они создали» голос Sky. В OpenAI тоже нацелены на мирное разрешение инцидента. Отключив вариант ассистента, напоминающий голос актрисы, компания связалась с представителями актрисы. «Мы ведём обсуждение с командой [Скарлетт Йоханссон] потому что, кажется, возникли некоторые разночтения. Мы хотим серьёзно отнестись к отзывам и выслушать опасения», — заявила руководитель отдела моделирования поведения OpenAI Джоан Джанг (Joanne Jang).

Разработан ИИ, распознающий эмоции человека по голосу — он поможет в работе кризисных линий

Модель искусственного интеллекта оказалась эффективным инструментом для выявления таких эмоций как страх и беспокойство в голосах людей, которые звонят на телефонные линии психологическом помощи. Автор проекта надеется, что она окажется полезной для телефонных операторов на линиях по предотвращению самоубийств.

 Источник изображения: The_BiG_LeBowsKi / pixabay.com

Источник изображения: The_BiG_LeBowsKi / pixabay.com

Оценка эмоционального состояния звонящих на кризисные телефонные линии на предмет текущего уровня суицидального риска имеет решающее значение для выявления и предотвращения самоубийств. Речь человека способна при помощи невербальных средств передавать полезную информацию о психическом и эмоциональном состоянии человека, содержа подсказки о том, испытывает он грусть, злобу или страх. Исследования суицидальной речи начались более 30 лет назад — уже удалось выявить в ней объективные звуковые признаки, которые можно использовать для определения различных психических состояний и расстройств, включая депрессию.

Но для человека, слушающего собеседника по телефону, оценка риска самоубийства может оказаться сложной задачей, потому что на кризисные линии звонят люди, пребывающие в крайне эмоционально нестабильном состоянии, и характеристики их речи могут быстро меняться. Решение этой задачи предложил Алаа Нфисси (Alaa Nfissi), аспирант университета Конкордия (Канада, г. Монреаль). Он обучил распознаванию речевых эмоций модель ИИ. Обычно такую оценку проводили психологи, из-за чего она требовала значительных временных затрат и опыта, но модель глубокого обучения оказалась способной эффективно распознавать эмоции.

Для обучения модели автор проекта использовал базу реальных записей звонков на кризисные линии для предотвращения самоубийств, а также записи актёров, которым было поручено изображать определённые эмоции. Записи были разбиты на сегменты и снабжены аннотациями, отражающими соответствующее состояние психики: злость, грусть, нейтральное состояние, страх или беспокойство. В результате модель научилась достаточно точно распознавать четыре эмоции: страх/беспокойство (правильный ответ в 82 % случаев), грусть (77 %), злость (72 %) и нейтральное состояние (78 %). Особенно хорошо модель справлялась с оценкой фрагментов записей настоящих звонков: грусть (78 %) и злость (100 %).

Алаа Нфисси считает, что разработанная им модель ИИ сможет использоваться в качестве вспомогательного инструмента для работы на кризисных линиях, помогая операторам в реальном времени оценивать состояние собеседников и выбирать подходящие стратегии разговора. Возможно, это будет способствовать предотвращению самоубийств.

В США стало незаконным использование в робозвонках сгенерированных ИИ голосов

Федеральная комиссия по связи (FCC) США объявила незаконным использование сгенерированных искусственным интеллектом голосов в роботизированных звонках. Новое постановление ведомства позволит прокурорам штатов принимать соответствующие меры в отношении людей, использующих технологию клонирования голоса с помощью генеративных нейросетей.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

В постановлении FCC сказано, что сгенерированные с помощью ИИ голоса теперь считаются «искусственными или записанными заранее голосами» в соответствии с Законом о защите потребителей услуг телефонной связи. Это означает, что звонящие больше не смогут задействовать сгенерированные голоса при совершении неэкстренных звонков или без предварительного согласия потребителей. Упомянутый закон включает в себя ряд запретов на использование разных методов автоматического обзвона. Любопытно, что запрет на использование «искусственного или заранее записанного голоса» для распространения сообщений в законе был и прежде, но не было чёткого указания на то, что к этой категории относятся голоса, клонированные с помощью ИИ.

«Злоумышленники используют голоса, сгенерированные искусственным интеллектом, для совершения нежелательных роботизированных звонков, чтобы вымогать деньги у людей, подражать знаменитостям и дезинформировать избирателей. Теперь у генеральных прокуроров штатов будут новые инструменты для борьбы с этим мошенничеством и обеспечения защиты общественности от мошенничества и дезинформации», — заявила председатель FCC Джессика Розенворсель (Jessica Rosenworcel).

Прокуроры штатов и прежде могли наказывать мошенников, использующих роботизированные звонки для обмана граждан. Теперь же они смогут привлекать их к ответственности только лишь на основании использования голоса, клонированного с помощью ИИ.

Гильдия актёров США заключила соглашение, по которому для озвучки игр можно использовать синтезированные ИИ голоса

Одна из возможностей, которую открыли человечеству системы искусственного интеллекта — это исполнение любой песни или озвучание любого персонажа голосом известного артиста без его ведома и участия. Само собой, подобная практика быстро насторожила профессиональные объединения актёров и музыкальных исполнителей, которые привыкли получать доходы от использования своего голоса. На днях в этой сфере была заключена необычная сделка.

 Источник изображения: Unsplash, Jacek Dylag

Источник изображения: Unsplash, Jacek Dylag

По данным CNet, на выставке CES 2024 в Лас-Вегасе крупнейший мировой профсоюз в данной сфере SAG-AFTRA (Гильдия киноактеров и Американская федерация артистов телевидения и радио) объявил о достижении соглашения с компанией Replica Studios, которая использует технологии искусственного интеллекта для имитации голоса актёров и музыкальных исполнителей. По условиям сделки, члены SAG-AFTRA смогут работать с Replica Studios, чтобы лицензировать свой голос для игровых студий. Таким образом, впервые в этой сфере подобная практика закрепляется официальным соглашением юридически.

В прошлом году в США проходила длительная забастовка представителей кино- и телевизионной индустрии, которые протестовали против использования искусственного интеллекта для написания сценариев и использования цифровых двойников актёров в этой сфере. В результате этих протестов было принято положение, согласно которому студии должны спрашивать разрешение у актёров на использование «цифровых дубликатов» их внешности и платить им за это.

SAG-AFTRA объединяет более 160 000 актёров, музыкантов и певцов, поэтому интересы многих представителей отрасли будут учитываться в рамках соглашения с Replica Studios. Дункан Крэбтри-Иреланд (Duncan Crabtree-Ireland), главный переговорщик от профсоюза, заявил, что соглашение «открывает путь для профессиональных артистов озвучивания к новым возможностям трудоустройства их цифровых голосовых реплик».

В соглашении есть положения о минимальных расценках, безопасном хранении и требованиях к обозначению сгенерированного контента, а также «ограничения по количеству времени, в течение которого реплика может быть использована без дополнительной оплаты и согласия». При этом представитель профсоюза отметил, что соглашение не распространяется на использование голосов артистов для обучения больших языковых моделей

Однако полностью проблему незаконного использования голосов артистов новое соглашение не решит. Оно никак не запрещает частным создателям контента использовать имитацию голоса известного артиста в своих произведениях. Что характерно, ещё в январе прошлого года звукозаписывающие студии были убеждены, что им не нужно разрешение артистов на использование цифровых реплик их голосов. За прошедший год настроение представителей отрасли изменилось, о чём свидетельствует заключённое на CES 2024 соглашение.

Хотя это соглашение касается именно видеоигр, Крэбтри-Иреланд говорит, что могут быть достигнуты и другие соглашения по другим видам деятельности, например, в музыке и телевизионной рекламе. Также в подобном соглашении могут быть заинтересованы правообладатели, которым достались права на произведения покойных артистов, и они хотели бы претендовать на выплаты со стороны студий, использующих копии голоса покойных исполнителей в своих произведениях.

Разработана система защиты голоса от создания дипфейков

Технологии подделки голоса при помощи искусственного интеллекта являются довольно опасным инструментом — они способны правдоподобно воспроизвести человеческий голос даже по короткому образцу. Не допустить создание искусной подделки сможет предложенный американским учёным алгоритм AntiFake.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Дипфейки представляют собой достаточно опасное явление — с их помощью можно приписать знаменитому артисту или политику высказывание, которого он никогда не делал. Были также прецеденты, при которых злоумышленник звонил жертве и голосом друга просил срочно перевести деньги в связи с некой чрезвычайной ситуацией. Доцент кафедры компьютерных наук и инженерии Вашингтонского университета в Сент-Луисе Нин Чжан (Ning Zhang) предложил технологию, которая значительно усложняет создание голосовых дипфейков.

Принцип работы алгоритма AntiFake состоит в формировании условий, при которых системе ИИ оказывается намного сложнее считывать ключевые характеристики голоса при записи разговора реального человека. «В инструменте используется техника состязательного ИИ, которая изначально применялась киберпреступниками, но теперь мы направили её против них. Мы немного искажаем записанный аудиосигнал, создавая возмущения ровно в той мере, чтобы для человека он звучал так же, а для ИИ — совершенно иначе», — прокомментировал свой проект господин Чжан.

 Источник изображения: wustl.edu

Источник изображения: wustl.edu

Это значит, что при попытке создать дипфейк на основе изменённой этим способом записи сгенерированный ИИ голос не будет похож на голос человека в образце. Как показали проведённые испытания, алгоритм AntiFake на 95 % эффективен для предотвращения синтеза убедительных дипфейков. «Что будет с голосовыми ИИ-технологиями дальше, я не знаю — новые инструменты и функции разрабатываются постоянно, — но всё же считаю, что наша стратегия использования техники противника против него самого так и останется эффективной», — заключил автор проекта.

Скарлетт Йоханссон подала в суд на приложение, в рекламе которого ИИ скопировал её голос

Американская актриса Скарлетт Йоханссон (Scarlett Johansson) подала в суд на разработчика приложений с технологиями искусственного интеллекта за несанкционированное использование её имени и образа в рекламе, пишет Variety. Ролик рекламировал приложение Lisa AI: 90s Yearbook & Avatar и содержал сгенерированную ИИ версию голоса актрисы.

 Источник изображения: disney.com

Источник изображения: disney.com

На видео продолжительностью 22 секунды показали Йоханссон за кулисами съёмок ленты «Чёрная вдова», где она действительно говорит: «Как дела, ребята? Это Скарлетт, и я хочу, чтобы вы пошли со мной». Но затем её изображение пропадает, а сгенерированный ИИ голос, который похож на её собственный, продолжает: «Оно не ограничивается лишь аватарами. С ИИ вы можете создавать изображения с текстом и даже видео. Думаю, вы не должны это пропустить».

В нижней части экрана разработчик приложения Convert Software разместил текст: «Изображения созданы Lisa AI. Они не связаны с этим человеком». Представители Йоханссон подчеркнули, что актриса никогда не была лицом приложения, и её адвокат Кевин Йорн (Kevin Yorn) «прорабатывает ситуацию в правовом поле». «Мы не приемлем таких вещей с беспечностью. В соответствии с нашим обычным порядком действий мы решим эту проблему всеми доступными средствами правовой защиты», — заявил юрист.

YouTube разрабатывает ИИ-инструмент для создания музыкальных треков с голосами известных вокалистов

Согласно сообщению Bloomberg, YouTube в настоящее время разрабатывает инструмент на базе ИИ, который позволит пользователям имитировать голоса известных музыкантов при записи звука. В настоящее время сервис пытается получить у музыкальных компаний права на обучение своей нейросети на песнях из их музыкальных каталогов. Ни один крупный звукозаписывающий лейбл пока не дал согласия, но источники утверждают, что переговоры между сторонами продолжаются.

 Источник изображения: Pixabay

Источник изображения: Pixabay

В прошлом месяце YouTube представил несколько новых инструментов на базе ИИ для авторов, в том числе созданные с помощью нейросети фоновые изображения и видео. Компания планировала включить в эти объявления и новый инструмент для клонирования голосов известных музыкантов, но не смогла вовремя получить разрешения от правообладателей.

Музыка, сгенерированная ИИ, в настоящее время находится в юридической «серой» зоне из-за трудностей с установлением прав собственности на песни, которые воспроизводят уникальный голос исполнителя, но не используют напрямую защищённых текстов или аудиозаписей. В настоящее время с точки зрения существующего законодательства неясно, является ли обучение генеративного ИИ клонированию голоса на музыкальном каталоге звукозаписывающей компании нарушением авторских прав. Тем не менее, это не подорвало интерес к разработке и обучению «музыкальных» нейросетей — в этом году Meta, Google и Stability AI выпустили ИИ-инструменты для создания музыки.

YouTube позиционирует себя в качестве партнёра, который поможет отрасли двигаться вперёд с помощью технологии генеративного ИИ, которую, по данным Bloomberg, приветствуют музыкальные компании. Хотя Alphabet в течение последнего года активно продвигала свои разработки в области генеративного ИИ, далеко не факт, что ей удастся на законных основаниях предоставить создателям YouTube инструменты клонирования голоса на базе ИИ, не вызвав многочисленных исков о нарушении авторских прав.

В настоящее время неясно, помогут ли дискуссии об ИИ-инструменте клонирования голоса YouTube решить возникающие претензии о нарушении авторских прав от звукозаписывающих компаний на фоне увеличения количества треков, созданных с помощью ИИ и подражающих популярным музыкантам. Широкое внимание к этой проблеме было привлечено в начале года, когда созданная ИИ песня Drake стала вирусной в интернете. В то время как некоторые музыканты, такие как Граймс (Grimes), поддерживают музыку, генерируемую ИИ, многие другие, в том числе Стинг (Sting), Джон Ледженд (John Legend) и Селена Гомес (Selena Gomez), призывают к введению правил, защищающих их голоса от копирования.

Созданная с помощью ИИ песня Дрейка и The Weeknd не получит премию «Грэмми»

Ранее СМИ писали, что песня Heart on My Sleeve, сгенерированная с помощью нейросети на основе вокала Дрейка и The Weeknd, будет претендовать на получение престижной премии «Грэмми». Теперь же, президент Национальной академии искусства и науки звукозаписи Харви Мейсон (Harvey Mason Jr.) заявил, что трек не будет номинирован.

 Источник изображения: Elice Moore / unsplash.com

Источник изображения: Elice Moore / unsplash.com

Господин Мейсон опроверг своё же предыдущее заявление относительно того, что упомянутый трек может получить «Грэмми», поскольку он создавался с участием человека. Ранее на этой неделе Мейсон в беседе с журналистами заявил, что песня Heart on My Steeve «полностью соответствует требованиям, потому что её написал человек».

«Позвольте мне быть предельно ясным: несмотря на то, что она была написана человеком, вокал не был получен законным путём, не было получено одобрение на использование вокала от лейбла или исполнителей, песня не является коммерчески доступной, и поэтому она не может быть включена в список», — рассказал Мейсон в беседе с журналистами.

Напомним, автором композиции стал человек с ником Ghostwriter, который использовал текст собственного сочинения и сгенерированные нейросетью голоса известных исполнителей. Сообщалось, что трек будет претендовать на получение награды сразу в двух номинациях: «Лучшая рэп-песня» и «Песня года» (обе премии традиционно присуждаются автору композиции, а не её исполнителю). Несмотря на то, что Heart on My Sleeve не получит престижную премию, Мейсон дал понять, что в будущем на получение «Грэмми» могут быть номинированы композиции, созданные с помощью искусственного интеллекта.

Создано ПО, способное обмануть систему голосовой аутентификации в 99 случаях из 100

Учёные-компьютерщики из Университета Ватерлоо создали программное обеспечение для дипфейка голосов, позволяющее в 99 % случаев обмануть систему голосовой аутентификации. Всё, что нужно при использовании этого ПО с поддержкой машинного обучения для клонирования голоса — пять минут аудиозаписи голоса человека.

 Источник изображения: uk.pcmag.com

Источник изображения: uk.pcmag.com

Ведущий автор исследования Андре Кассис (Andre Kassis), кандидат наук в области компьютерной безопасности и конфиденциальности из Университета Ватерлоо, объяснил, как работает голосовая аутентификация: «При регистрации с использованием голосовой аутентификации вас просят повторить определённую фразу своим голосом. Затем система извлекает уникальную голосовую подпись (голосовой отпечаток) из этой предоставленной фразы и сохраняет её на сервере <..> При попытке аутентификации в будущем вас попросят сказать другую фразу, а извлечённые из неё характерные особенности сравниваются с голосовым отпечатком, сохранённым в системе, чтобы определить, следует ли предоставлять доступ».

Как сообщается, даже меры противодействия спуфингу, используемые системами голосовой аутентификации, не позволяют заметить подмену, поскольку программа компьютерщиков из Университета Ватерлоо, удаляет маркеры из дипфейкового аудио, которые «выдают, что оно было сгенерировано компьютером». Сделав шесть попыток обойти систему аутентификации, учёные в 99 % добились успеха.

Созданием поддельного голоса для обмана системы голосовой аутентификации никого не удивишь, но разработанное компьютерщиками ПО оказалось настолько эффективным, что профессор компьютерных наук Университета Ватерлоо Урс Хенгартнер (Urs Hengartner) выразил надежду, что компании, полагающиеся на голосовую аутентификацию как на единственный фактор аутентификации, «рассмотрят возможность развёртывания дополнительных или более строгих мер аутентификации».

Актёры озвучки обеспокоились тем, что ИИ качественно копирует их речь и тон голоса

Британские актёры озвучки обнаружили, что некоторые веб-сайты используют их голоса без разрешения. Они обеспокоены тем, что в будущем могут потерять карьеру, «когда голоса ИИ станут более изощренными».

 Источник изображения: Pixabay

Источник изображения: Pixabay

Реми Мишель Кларк (Remie Michelle Clarke) участвовала в озвучке для Microsoft Bing в Ирландии. Недавно она обнаружила веб-сайт для преобразования текста в речь, который использовал её голос для озвучки текста. Любой пользователь сайта мог заплатить за то, чтобы голос Кларк озвучил всё, что им заблагорассудится — рекламные объявления, аудио на YouTube или голосовые сообщения по телефону.

Искусственный интеллект упростил воспроизведение человеческого голоса с помощью множества инструментов, позволяющих клонировать вокализацию, заставив роботов звучать так же, как настоящие люди. По сообщениям различных СМИ, число голосовых мошенников растёт, поскольку преступники используют такие инструменты, чтобы обманом заставить жертв перевести деньги или подтвердить финансовые переводы. Компания Revoicer сообщила Bloomberg News, что не может сказать, откуда у неё берутся голосовые данные, но утверждает, что этот процесс полностью законен.

Майк Купер (Mike Cooper), британский актёр озвучки, проживающий в США, также нашёл свой голос на двух веб-сайтах по генерации голоса ИИ. Информация на данных сайтах гласит о том, что владельцы сайтов имеют законное право на его голос, несмотря на то что он никогда с ними не сотрудничал.

Кларк сказала, что не знает, могут ли веб-сайты законно продавать её голос, но обеспокоена тем, что контракт, который она подписала много лет назад с Microsoft, может быть причиной того, что она слышит свой голос в интернете.

Роб Скиглимпалья (Rob Sciglimpaglia), адвокат Кларк, сказал, что благодаря партнёрам технологических фирм по обработке данных, многие компании теперь имеют право использовать голоса актёров для ИИ.

Мишель Кларк (Michelle Clarke), также добавила: «Первоначально люди беспокоятся о том, что наниматели могут использовать ваш голос для другой работы, за которую вам никогда не заплатят, и о сопутствующей потере заработка. А теперь есть вероятность потерять карьеру в будущем, когда голоса ИИ станут более изощренными».

ИИ научили клонировать любые голоса для озвучки текста — в Сети тут же появились непристойные дипфейки с голосами знаменитостей

Несколько дней назад стартап ElevenLabs представил бета-версию платформы для создания синтетических голосов-клонов реальных людей для озвучивания текстов. Буквально через несколько дней в Сети появились дипфейки голосов знаменитостей, озвучивающих крайне сомнительные тексты. По словам компании, отмечено «увеличивающееся число случаев злоупотребления клонированием голосов» — компания уже работает над решением проблемы с помощью введения дополнительных мер защиты.

 Источник изображения: Kelly Sikkema/unsplash.com

Источник изображения: Kelly Sikkema/unsplash.com

Что имелось в виду под злоупотреблением, в компании не уточнили, но уже известно, что на интернет-форумах появились аудиозаписи с голосами знаменитостей, содержащие высказывания неприемлемого содержания.

Пока неизвестно, все ли материалы созданы с использованием технологии ElevenLabs, но значительная коллекция голосовых файлов содержит ссылку именно на платформу компании. Впрочем, ничего удивительно в этом нет, поскольку возникновение общедоступных систем машинного обучения привело к появлению многочисленных дипфейков различного рода.

Сейчас ElevenLabs собирает обратную связь для предотвращения злоупотреблений технологией. На данный момент компания не придумала ничего необычного кроме добавления дополнительных мер верификации аккаунтов для обеспечения доступа к клонированию голосов.

В числе идей: ввод платёжной информации или данных удостоверений личности. Дополнительно рассматривается верификация прав на использование голоса, который пользователи намерены клонировать, например, будет предложено загрузить образец с чтением предложенного текста. Наконец, компания рассматривает возможность полностью отказаться от инструмента Voice Lab и заставить проходить верификацию голосов в ручном режиме. Пока же пользователей призвали поделиться идеями с разработчиками сервиса.

Известно, что в первой половине января схожее решение представила Microsoft. Её инструмент VALL-E тоже позволяет преобразовать текст в речь, использовав в качестве образца всего 3 секунды записи голоса любого человека.


window-new
Soft
Hard
Тренды 🔥
VK похвасталась успехами «VK Видео» на фоне замедления YouTube 2 ч.
GTA наоборот: полицейская песочница The Precinct с «дозой нуара 80-х» не выйдет в 2024 году 4 ч.
D-Link предложила устранить уязвимость маршрутизаторов покупкой новых 4 ч.
Valve ужесточила правила продажи сезонных абонементов в Steam и начнёт следить за выполнением обещаний разработчиков 5 ч.
Австралия представила беспрецедентный законопроект о полном запрете соцсетей для детей до 16 лет 6 ч.
Биткоин приближается к $100 000 — курс первой криптовалюты установил новый рекорд 6 ч.
В открытых лобби Warhammer 40,000: Space Marine 2 запретят играть с модами, но есть и хорошие новости 7 ч.
Apple попросила суд отклонить антимонопольный иск Минюста США 7 ч.
Битва за Chrome: Google рассказала об ужасных последствиях отчуждения браузера для США и инноваций 7 ч.
ИИ помог Google выявить 26 уязвимостей в открытом ПО, включая двадцатилетнюю 9 ч.
Arm задаёт новый стандарт для ПК, чтобы навязать конкуренцию x86 7 мин.
HPE готова ответить на любые вопросы Минюста США по расследованию покупки Juniper за $14 млрд 13 мин.
ZTE представила Nubia Z70 Ultra — флагман с самыми тонкими рамками экрана, скрытой камерой и Snapdragon 8 Elite за $635 50 мин.
Флагманы Oppo Find X8 и X8 Pro на Dimensity 9400 стали доступны не только в Китае — старший оценили в €1149 3 ч.
«ВКонтакте» выросла до 88,1 млн пользователей — выручка VK взлетела на 21,4 % на рекламе 3 ч.
«Квантовые жёсткие диски» стали ближе к реальности благодаря разработке австралийских учёных 3 ч.
Электромобили станут более автономными и долговечными: Honda через несколько лет стартует массовый выпуск твердотельных батарей 3 ч.
Большой планшет Oppo Pad 3 Pro вышел на глобальный рынок за €600 4 ч.
Гигантские ракеты SpaceX Starship смогут летать в пять раз чаще с 2025 года 4 ч.
Каждый третий смартфон теперь попадает в Россию нелегально 4 ч.