Опрос
|
реклама
Быстрый переход
Google научила нейросеть писать 5-минутные песни по текстовому описанию, но вряд ли её когда-либо выпустят
18.04.2023 [19:01],
Владимир Фетисов
В начале этого года Google представила MusicLM — модель искусственного интеллекта, способную создавать музыку в любом жанре. С тех пор разработчики продолжали развивать алгоритм и теперь он может создавать 5-минутные песни по небольшому текстовому описанию. Однако вероятные проблемы юридического характера вряд ли позволят компании когда-либо сделать этот инструмент общедоступным. ![]() Источник изображения: Pixabay Взрывной рост популярности генеративных нейросетей наблюдается последние несколько месяцев. Однако алгоритмы вроде ChatGPT или DALL-E не являются первопроходцами. Так компания Open AI выпустила музыкальный ИИ-генератор Jukebox ещё в 2020 году. Возможности этого алгоритма были весьма ограничены, поэтому он не смог завоевать популярность. Нейросеть Google MusicLM, вероятно, является значительно более продуктивной. Согласно имеющимся данным, алгоритм способен генерировать 5-минутные песни на основе текстового описания, причём конечный результат в значительно большей степени напоминает то, что мог бы написать человек. В процессе обучения алгоритма использовались 280 тыс. часов аудиозаписей. На этапе оценки Google сравнивала MusicLM с другими музыкальными ИИ-генераторами Mubert и Riffusion, а также задействовала некоторое количество слушателей, которые оценивали качество звучания сгенерированных композиций. По данным источника, алгоритм MusicLM превзошёл аналоги по всем показателям. Несмотря на это, алгоритм всё ещё далёк от того, чтобы создавать полноценные песни, поскольку он не способен воспроизводить структуру привычных человеку музыкальных композиций, а генерируемый им вокал лишь отдалённо напоминает пение. «Яндекс.Браузер» научился переводить видео с китайского языка
17.04.2023 [13:08],
Руслан Авдеев
Новая функция представлена «Яндексом» в браузере собственной разработки. Теперь он получил возможность осуществлять перевод и закадровую озвучку видео с китайского языка на русский. Для обучения нейросеть использует огромный массив видео на китайском языке, анализируя полученные данные. ![]() Источник изображения: «Яндекс» Перевод осуществляется в несколько этапов. При этом нейросеть учитывает тон и контекст речи в видеопотоке. В компании подчеркнули, что ИИ способен различать четыре тона — данные фонетические особенности произношения способны значительно менять смысл почти любого высказывания в китайском языке. Кроме того, система «Яндекса» различает 6,5 тыс. иероглифов. Как сообщают «Ведомости», для обучения ИИ компания использовала 100 тыс. видеоматериалов с субтитрами на севернокитайском языке, наиболее распространённом на территории Китая. Для того, чтобы зритель мог воспользоваться переводом и озвучкой с китайского на русский язык, необходимо нажать кнопку «Перевести видео» в «Яндекс.Браузере». Сообщается, что технологией уже можно воспользоваться на YouTube. Ранее сообщалось о том, что «Яндекс» внедрил многоголосый закадровый перевод видео и возможность синхронного перевода прямых трансляций. В переводе видео принимают участие сразу четыре нейросети. Одна из них распознаёт речь с последующим преобразованием в текстовый формат, ещё одна идентифицирует пол говорящего по биометрическим данным, третья определяет, в каких местах необходимо расставлять знаки препинания и выделить смысловые фрагменты. Наконец, четвёртая переводит текст. Meta✴ запустила ИИ-сервис Animated Drawing, который заставляет рисунки двигаться
14.04.2023 [15:26],
Владимир Фетисов
Компания Meta✴ Platforms сделала общедоступным сервис Animated Drawing, с помощью которого любой желающий может вдохнуть жизнь в свои рисунки. Данный инструмент построен на основе нейросетей и предназначен для того, чтобы превращать рисунки в анимированные изображения. ![]() Источник изображения: Meta✴ Первоначальная версия Animated Drawing была запущена командой разработчиков Fundamental AI Research в 2021 году. Теперь же проект с открытым исходным кодом продолжает развиваться, и в Meta✴ считают, что сторонние разработчики помогут ускорить этот процесс. На данном этапе сервис способен генерировать разные анимации на основе исходного изображения, загруженного пользователем. Для начала взаимодействия с Animated Drawing достаточно на стартовой странице сервиса загрузить собственный рисунок, на котором изображён какой-либо персонаж. Далее пользователю будет предложено изменить размер окна захвата изображения, а после обработки снимка можно скорректировать получившийся результат для достижения лучшего результата. В конечном итоге пользователь увидит анимированную версию своего персонажа, а также сможет выбирать разные варианты анимации, сгруппированные по нескольким категориям. В работе Animated Drawing используются алгоритмы обнаружения объектов, оценки позы, сегментации на основе обработки изображений. В дополнение к этому используются традиционные методы компьютерной графики в процессе анимации. За несколько месяцев с момента запуска демо-версии сервиса Meta✴ получила разрешение пользователей на использование более 1,6 млн изображений для обучения алгоритма. Bloomberg создало свою нейросеть типа GPT, которая разбирается в финансах
13.04.2023 [23:10],
Матвей Филькин
Информационное агентство Bloomberg создало нейросеть BloombergGPT, которая способна отвечать на вопросы, связанные с финансами и бизнесом — основными темами данного издания. Новая технология способна писать заголовки на основе аннотаций и подсказывать журналистам, финансистам и другим заинтересованным лицам необходимую информацию. ![]() Источник изображения: Bloomberg Агентство Bloomberg создало свою модель искусственного интеллекта на той же базовой технологией, что и GPT от OpenAI. Технология Bloomberg натренирована на большом количестве финансовых документов, собранных информагентством за последние 20 лет, которые включают в себя документы о ценных бумагах, пресс-релизы, новости и публикации других изданий. Примерно 50 % информации, содержащейся в нейросети от Bloomberg, было взято из GitHub, «Википедии» и субтитров YouTube. Создавать чат-бота для конкуренции с ChatGPT агентство не планирует. На данный момент Bloomberg хочет расширить функциональность своего сервиса Terminal для изучения и анализа финансового рынка благодаря возможностям модели искусственного интеллекта. В Санкт-Петербурге разработали нейросеть, которая распознаёт речь по губам
11.04.2023 [23:20],
Владимир Мироненко
В Санкт-Петербургском Федеральном исследовательском центре РАН (СПб ФИЦ РАН) создали приложение для смартфона, с помощью которого можно считывать речь пользователя в шумных местах по губам, что позволит повысить точность распознавания слов голосовыми помощниками в сложных условиях, пишет ТАСС. ![]() Источник изображения: Pixabay В пресс-службе СПб ФИЦ РАН отметили, что приложение можно будет использовать в широком перечне отраслей с применением голосовых команд — от сферы услуг до тяжёлой промышленности. Как сообщается, в основе приложения лежит нейросетевая модель, способная распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространённых команд и автоматически определять, какой вид данных обеспечивает максимальную точность — видео или звук, или оба сразу. «Исследователи Санкт-Петербургского Федерального исследовательского центра РАН научились при помощи алгоритмов искусственного интеллекта и компьютерного зрения распознавать речь человека по губам. Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например, в людных местах или при управлении тяжёлой техникой», — рассказали в пресс-службе корреспонденту ТАСС. Программа прошла тестирование в одной из логистических компаний в России. Для этого приложение было установлено на смартфоны водителей шумных большегрузных автомобилей. Тестирование подтвердило тот факт, что совмещение двух видов считывания информации повышает эффективность работы алгоритмов — если при чтении по губам точность распознавания команд составила 60–80 %, то в сочетании со звуковым сигналом точность распознавания превышает 90 %. «Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолётов и тяжёлой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», — сообщил старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько. Также следует отметить, что на проведение разработки был выделен грант Российского научного фонда. Google запустила блог о развитии ИИ-бота Bard
11.04.2023 [16:22],
Владимир Фетисов
Google называет своего чат-бота Bard «экспериментальным сервисом разговорного ИИ» с момента его анонса в начале этого года. Разработчики утверждают, что алгоритм постоянно обновляется, но что именно происходит с ним, обычным пользователям понять затруднительно. Google хочет сделать процесс развития Bard более открытым, для чего был запущен блог Experiment updates, в котором любой желающий сможет найти сведения о последних обновлениях чат-бота, в том числе новых функциях и исправлениях. ![]() Источник изображения: geralt/pixabay.com Блог начал работать на этой неделе, поэтому информации об обновлениях Bard в нём пока немного. В настоящее время на странице присутствует одна запись, датируемая 10 апреля. В ней разработчики сообщают о запуске блога, добавлении новых тем поиска при нажатии кнопки Google It, а также об улучшении математических и логических возможностей Bard. Google считает, что эта страница поможет людям видеть последние обновления и исправления в Bard. За счёт этого они смогут быстрее приступить к тестированию новых функций, что будет полезным для развития алгоритма. Разработчики поясняют, что на данном этапе Bard не всегда даёт точные и правильные ответы. Google работает над тем, чтобы исправить это, продолжая вносить изменения в алгоритм. Хотя формулировки разработчиков в блоге весьма короткие и нечёткие, становится очевидным, что IT-гигант хочет сделать процесс улучшения алгоритма более открытым для общественности. 2 млн пользователей за 6 дней: нейросеть «Сбера» Kandinsky 2.1 оказалась среди самых быстрорастущих сервисов мира
10.04.2023 [17:39],
Владимир Фетисов
Стало известно, что бесплатная генеративная модель Kandinsky 2.1, презентация которой состоялась ранее в этом месяце, стала одним из самых быстрорастущих сервисов искусственного интеллекта в мире. Она способна генерировать красочные картинки по текстовому описанию пользователя, а также поддерживает возможность создания работ в разных стилях. ![]() Результат работы алгоритма Kandinsky 2.1 по запросу «современный художник за работой» Разработчики сообщили, что алгоритму Kandinsky 2.1 потребовалось всего четыре дня, чтобы достичь отметки в 1 млн уникальных пользователей. Любопытно, что это на один день быстрее результата чат-бота ChatGPT компании Open AI. Согласно имеющимся данным, с момента запуска алгоритма было сгенерировано свыше 10 млн изображений, а число уникальных пользователей достигло 2 млн человек. Также отмечается, что на прошлой неделе алгоритм Kandinsky 2.1 попал в топ-5 трендов мировых репозиториев по версии сервиса GitHub. Напомним, алгоритм Kandinsky 2.1 может генерировать изображения по их текстовому описанию на естественном языке. Модель поддерживает обработку запросов на 101 языке и готова открыть для пользователей новые творческие возможности, включая смешивание нескольких рисунков, дорисовку изображений, создание картин в режиме бесконечного полотна и др. Разработкой и обучением алгоритма занимались специалисты Sber AI совместно с учёными из Института искусственного интеллекта AIRI на объединённом дата-сете Sber AI и компании SberDevices. Kandinsky 2.1 содержит 3,3 млрд параметров вместо 2 млрд параметров в предыдущей версии алгоритма. В Китае представили ИИ-бота SenseChat — ещё один кандидат в конкуренты ChatGPT
10.04.2023 [14:32],
Владимир Фетисов
Китайская компания SenseTime Group представила собственную большую языковую модель SenseNova и созданный на её основе чат-бот SenseChat. Ожидается, что новый ИИ-сервис сможет конкурировать с аналогом ChatGPT от компании Open AI, который вышел на рынок несколько месяцев назад и уже набрал большую популярность по всему миру. ![]() Источник изображения: Placidplace/pixabay.com В рамках презентации SenseChat генеральный директор SenseTime Сюй Ли (Xu Li) показал, как чат-бот рассказывает историю о кошке, ловящей рыбу, сгенерированную на основе нескольких текстовых запросов. Он также продемонстрировал возможности нейросети в плане помощи в написании программного кода. При этом сервис обрабатывал запросы на английском и китайском языках. Сюй Ли отметил, что сейчас 80 % работы по созданию ИИ-алгоритмов выполняет человек, но в будущем ситуация изменится, и 80 % работы будут выполнять нейросети. SenseTime анонсировала запуск своего ИИ-бота ещё в марте, а теперь его представили широкой публике. Согласно имеющимся данным, разработчика поддерживает китайский IT-гигант Alibaba Group Holding, который заинтересован в интеграции функций на основе нейросетей в свои продукты. Однако существуют опасения касательно способности китайских компаний в долгосрочной перспективе обеспечить доступ к производительным вычислительным системам, необходимым для обучения нейросетей. SenseTime находится под санкциями США, к тому же американское правительство планомерно усиливает давление на Поднебесную, ограничивая поставки в страну передовых чипов и технологий. Alibaba предложила стартапам протестировать её ИИ-чат-бот Tongyi Qianwen — ещё один аналог ChatGPT представят 11 апреля
07.04.2023 [17:32],
Руслан Авдеев
Китайский техногигант Alibaba ищет стартапы, готовые заняться тестированием разработанного компанией чат-бота Tongyi Qianwen. Как сообщает Reuters, Alibaba стремится воспользоваться интересом, который вызвало появление ИИ-бота ChatGPT американской OpenAI. ![]() Источник изображения: Alibaba Cloud Бесплатный вариант ChatGPT на основе большой языковой модели (LLM) компания OpenAI представила в ноябре прошлого года. Инструмент, способный по запросу и заданным параметрам сочинять связные тексты, вскоре завоевал признание миллионов пользователей. В свою очередь, Alibaba не стала предоставлять доступ к боту всем желающим, а открыла регистрацию для корпоративных пользователей, желающих ознакомиться с технологией. По данным одного из источников Reuters, новый сервис действительно представляет собой LLM, ориентированную на бизнес-пользователей. В пятницу облачное подразделение Alibaba без лишних маркетинговых уловок опубликовало в социальных сетях сообщение: «Привет, меня зовут Tongyi Qianwen, это наша первая встреча, я приветствую ваши отзывы». Сообщается, что на сайте бота пока есть только формы для ввода номера телефона и адреса электронной почты для того, чтобы оставить запрос на регистрацию аккаунта. Никаких подробностей не сообщается, в самой Alibaba Cloud на запросы журналистов тоже не отвечают. Официальная премьера продукта ожидается 11 апреля. Премьеры китайских чат-ботов приобретают лавинообразный характер. Baidu и её партнёры уже проводят испытание Ernie Bot. 8 апреля мероприятие, посвящённое ИИ-модели Pangu, намерена провести Huawei, на следующей неделе должно пройти аналогичное мероприятие компании SenseTime, готовой показать «передовые достижения в программном обеспечении, связанном с искусственным интеллектом». Вероятно, речь тоже будет идти о новом боте. На прошлой неделе Alibaba сообщила о реструктуризации компании с её разделением на шесть отдельных подразделений, каждое из которых будет иметь собственный совет директоров и генерального директора. Поисковик Google станет похожим на Bing — в него тоже встроят функции на основе искусственного интеллекта
06.04.2023 [18:50],
Владимир Фетисов
Вслед за Microsoft компания Google планирует интегрировать в свою поисковую систему функции на основе искусственного интеллекта. Об это пишет The Wall Street Journal со ссылкой на слова генерального директора Google Сундара Пичаи (Sundar Pichai). ![]() Источник изображения: geralt/pixabay.com В беседе с журналистами господин Пичаи подчеркнул, что достижения в сфере ИИ повысят способность поисковика Google отвечать на множество запросов. Он отверг мнение о том, что чат-боты представляют угрозу для поискового бизнеса Google, на долю которого приходится более половины дохода материнской компании Alphabet. «Пространство возможностей, во всяком случае, больше, чем раньше», — считает Сундар Пичаи, который также возглавляет Alphabet. Google давно входит в число лидеров по разработки больших языковых моделей (LLM), на основе которых строятся продвинутые чат-боты, такие как Bard от Google или конкурирующий ChatGPT от Open AI. При этом IT-гигант не спешит интегрировать ИИ-технологии в свои продукты, но в скором времени это может измениться. «Смогут ли люди задавать вопросы Google и взаимодействовать с LLM в контексте поиска? Безусловно», — заявил господин Пичаи во время беседы с журналистами. Поскольку Microsoft уже интегрировала чат-бота на основе нейросети в свой поисковик Bing и это способствовало взрывному росту его популярности, Google сталкивается с одной из наиболее серьёзных угроз для своего основного бизнеса за последние годы. В дополнение к этому компания ощущает нарастающее давление со стороны инвесторов, которые требуют сокращения расходов из-за роста инфляции. В начале года Alphabet объявила о сокращении 12 тыс. сотрудников, что составляет примерно 6 % от общего числа персонала компании. По словам Пичаи, Google ещё не достигла цели стать на 20 % продуктивнее, которая была поставлена в сентябре прошлого года. Он сказал, что компанию устраивает темп происходящих изменений, но не стал говорить о возможных перспективах дальнейшего сокращения штата сотрудников. В целом интервью господина Пичаи даёт понять, что Google планирует интегрировать в свой поисковик ИИ-бота, подобного тому, что уже используется в Bing. Предполагается, что этот шаг перевернёт традиционный подход к взаимодействию пользователей с поисковой системой, который не претерпевал серьёзных изменений в течение более чем 20 лет. По словам главы Google, в настоящее время идёт тестирование нескольких новых продуктов, например, возможность общения с ботом поисковика в форме чата. В прошлом месяце Google объявила о намерении «продуманно интегрировать LLM в поиск», но до сих пор не раскрыла планов касательно новых функция и сроков их появления. В марте этого года Google открыла публичный доступ к своему чат-боту Bard через регистрацию в листе ожидания. При этом разработчики не стали интегрировать алгоритм в поисковик, предложив пользователям взаимодействовать с ним через отдельный веб-ресурс. В настоящее время продолжается тестирование Bard, после чего этот алгоритм может стать доступным в поисковике Google. Microsoft добавила ИИ-бота в клавиатуру SwiftKey для Android
06.04.2023 [16:43],
Владимир Фетисов
Разработчики из Microsoft продолжают интегрировать функции на основе продвинутого чат-бота, который построен на базе нейросети, в разные продукты. На этот раз они добавили поддержку ИИ-бота в свою клавиатуру SwiftKey для устройств под управлением Android. ![]() Источник изображения: Microsoft / OpenAI Новая функция появилась в бета-версии приложения SwiftKey. С её помощью можно в одно касание получить доступ к чат-боту в поисковике Bing из любого приложения через виртуальную клавиатуру. Пользователи могут использовать чат-бот в обычном режиме, делая текстовые запросы или же отдавая голосовые команды, которые в режиме онлайн превращаются в текст и обрабатываются алгоритмом. Достаточно установить клавиатуру SwiftKey, чтобы иметь возможность быстрого взаимодействия с ИИ-ботом из любого приложения. На данном этапе доступ к чату-боту реализован только в бета-версии приложения SwiftKey. В Microsoft отметили, что развёртывание новой функции проходит постепенно, поэтому в настоящее время она может быть доступна не во всех регионах. Когда чат-бот будет интегрирован в стабильную версию SwiftKey, пока неизвестно. Также не уточняется, когда ИИ-бот смогут испытать пользователи клавиатуры Microsoft на устройствах с iOS. Напомним, Microsoft приобрела SwiftKey в 2016 году, когда наблюдался значительный рост спроса на сторонние клавиатуры со стороны потребителей. С тех пор Android-версия приложения продолжает оставаться одной из наиболее популярных в своей категории. «Яндекс» представил нейросеть «Шедеврум» для превращения текста в изображения, и выпустил для неё приложения
05.04.2023 [13:16],
Павел Котов
Компания «Яндекс» рассказала о прототипе нейросети, способной генерировать изображения по текстовым описаниям. Посмотреть результаты её работы может любой желающий — для этого достаточно скачать приложение «Шедеврум» для Android или iOS. ![]() Источник изображений: Яндекс Нейросеть работает с текстовыми описаниями на русском и английском языках, причём рекомендуется излагать пожелания максимально конкретно: ИИ выполняет работы в разных художественных стилях, подражает известным живописцам и понимает инструкции вроде «фотореализма» и «высокой детализации». Получив текстовое описание, ИИ создаёт базовую версию картинки, после чего в несколько шагов увеличивает её разрешение и добавляет новые детали — такой метод называется каскадной диффузией. На этапе бета-теста первую версию генеративной модели обучили на 240 млн изображений и соответствующих им текстовых описаний. Работа продолжается — новый объём данных включает 500 млн примеров, поэтому качество работы «Шедеврума» постепенно вырастет. К финальному релизу, рассказал руководитель управления машинного интеллекта и исследований «Яндекса» Алексей Гусаков, нейросеть будет генерировать «баннеры, иллюстрации, создавать изображения для интернет-витрин и не только», но пока это не более чем источник хорошего настроения для пользователей. Шедеврум
Сейчас в приложениях «Шедеврум» можно преимущественно лишь знакомиться с результатами работы нейросети, отмечая понравившиеся изображения в ленте. Собственное описание для генерации изображения пока можно предложить в формате заявки и дождаться её подтверждения. Но в перспективе это ограничение планируют снять, и отправлять свои описания смогут все зарегистрированные пользователи. |
✴ Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»; |