Новости Software

Meta* обучила нейросеть data2vec работе с речью, изображениями и текстом, чтобы она смогла «понимать мир»

Исследователи Meta* обучили одну модель искусственного интеллекта (ИИ) обрабатывать речь, изображения и текст — они надеются, что подобные «мультимодальные» системы лягут в основу будущих разработок в области дополненной реальности и метавселенной.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Модель, получившая название data2vec, выполняет задачи разного рода: при голосовом вводе она распознаёт речь; при вводе данных в формате картинки она идентифицирует объекты на ней; а получив на вводе текст, проверяет его на грамматические ошибки и анализирует интонации с эмоциональным фоном. Традиционно ИИ-алгоритмы обучаются на данных одного типа, однако в случае с data2vec было решено работать с тремя форматами. Но с каждым из них нейросеть работает независимо от остальных.

Компания надеется, что в перспективе подобные мультимодальные модели сделают компьютеры более адаптивными — способными совмещать физические и цифровые окружения в едином понятийном измерении. «Люди воспринимают мир через комбинацию зрения, слуха и слов — системы вроде этой однажды станут понимать мир так же, как и мы. Когда-нибудь она будет встроена в очки дополненной реальности или ИИ-ассистент, чтобы, например, помочь человеку приготовить обед, примечая пропущенные ингредиенты, рекомендуя убавить огонь или [выполняя] более сложные задачи», — прокомментировал проект изданию The Register глава Meta* Марк Цукерберг (Mark Zuckerberg).

Аппаратная платформа системы data2vec была построена с использованием 16 ускорителей NVIDIA V100 и A100. В качестве исходных данных для обучения ИИ использовались 960 часов голосовых аудиозаписей, несколько миллионов слов из книг и со страниц «Википедии», а также картинки из базы ImageNet-1K. В ходе тестирования при выполнении конкретных заданий data2vec показала себя эффективнее некоторых топовых ИИ-моделей, обученных на данных только одного типа. В перспективе, заявил один из разработчиков проекта, планируется расширить восприятие нейросети данными других типов, таких как запахи, 3D-объекты и видеозаписи.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Прототип игрового смартфона ASUS ROG Phone 6 показался на фото 7 ч.
Ускоритель вычислений NVIDIA A100 выйдет в версии с предустановленным водоблоком для жидкостного охлаждения 7 ч.
Британские учёные предложили изучать землетрясения и течения с помощью подводных интернет-кабелей 8 ч.
Мобильная графика AMD Radeon RX 6300M отметилась в Geekbench 5 — примерно на уровне GeForce MX450 9 ч.
Apple зарегистрировала загадочный «сетевой адаптер» под управлением iOS 10 ч.
Mitsubishi предложила печатать спутниковые антенны прямо в космосе — отправка спутников на орбиту подешевеет 11 ч.
Совет директоров Volkswagen настаивает на более агрессивном развитии программного направления 14 ч.
Apple склоняет подрядчиков к увеличению присутствия в Индии и Вьетнаме 16 ч.
Acer обновила рабочие ноутбуки TravelMate процессорами Alder Lake vPro и Ryzen PRO 6000 21-05 17:53
HP готовит к выпуску ноутбук для разработчиков на базе AMD Ryzen и Pop!_OS 21-05 16:26