Сегодня 05 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → kosmos-1

Microsoft представила Kosmos-1 — ИИ, который понимает текст с картинками и решает головоломки

Microsoft представила мультимодальную ИИ-модель Kosmos-1, способную анализировать содержание изображений, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ и понимать команды на естественном языке. Учёные считают, что создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей.

 Источник изображения: 0fjd125gk87/pixabay.com

Источник изображения: 0fjd125gk87 / pixabay.com

По мнению исследователей, мультимодальное восприятие является необходимым элементом для создания AGI в контексте получения знаний и связи с реальным миром. Подробности концепции изложены в работе Language Is Not All You Need: Aligning Perception with Language Models, посвящённой структуре нового искусственного интеллекта. В работе рассказывается о том, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к иллюстрациям и проходит визуальный тест на IQ.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач — именно это является конечной целью OpenAI, ключевого партнёра Microsoft в сфере ИИ. Впрочем, Kosmos-1, похоже, является проектом исключительно Microsoft. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Для понимания изображения по аналогии с ChatGPT новая система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются вычислительной машиной. В дальнейшем текст и другие элементы обрабатываются специальным декодером.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Известно, что Microsoft тренировала Kosmos-1, используя информацию из глобальной сети. После обучения возможности системы были проверены с помощью серии тестов, включающих оценку понимания языка, генерации текстов, классификации текстов без оптического распознавания символов. Проверялась возможность описания изображений, ответов на «визуальные» вопросы и выполнения других задач. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Наибольший интерес представляет способность модели пройти тест британского психолога Джона К. Рейвена (John C. Raven), позволяющего измерить IQ, демонстрируя испытуемому последовательность форм с предложением продолжить её. Правда, пока Kosmos-1 может пройти тест Рейвена с точностью только 22‒26 %.

 Источник изображения: Microsoft

Источник изображения: Microsoft

В настоящий момент модель делает только первые шаги в сфере мультимодальной обработки данных, но нетрудно предположить, что дальнейшие улучшения позволят добиться намного более впечатляющих результатов, позволяя ИИ взаимодействовать с любыми формами информации, что невероятно расширит возможности цифровых ассистентов. В будущем учёные обещают масштабировать модель и добавить ей возможность вести беседы.

В Microsoft сообщили, что планируют сделать Kosmos-1 доступным сторонним разработчикам.


window-new
Soft
Hard
Тренды 🔥
Видеоредактор «Мовавика Видео» получил новую функцию: автосубтитры при помощи искусственного интеллекта 13 мин.
Microsoft запустила ИИ-техподдержку для Xbox 26 мин.
Netflix начнёт использовать генеративный ИИ для игр и удалит почти все интерактивные шоу 2 ч.
Instagram начнёт с помощью ИИ вычислять подростков, скрывающих свой возраст 2 ч.
«Не очень хорошо, но очень интересно»: критики вынесли вердикт экшен-хоррору Slitterhead от создателя Silent Hill 12 ч.
На фоне надвигающегося сиквела продажи Kingdom Come: Deliverance взяли новую высоту 13 ч.
«У нас всего один шанс»: Ubisoft объяснила, почему перенос Assassin's Creed Shadows был необходим 14 ч.
Игрок обнаружил в ремейке Silent Hill 2 секретное послание — разработчики боялись, что загадка будет слишком сложной 15 ч.
Baldur’s Gate 3, Stellar Blade, Star Wars Outlaws и многие другие: поддержку PS5 Pro на запуске получат более 50 игр 16 ч.
Евросоюз проверит iPadOS на соответствие требованием антимонопольного законодательства 17 ч.
SK hynix представила первые в отрасли 16-ярусные чипы HBM3E ёмкостью 48 Гбайт 2 мин.
OpenAI намерена вывести ИИ реальный мир — компания переманила из Meta главу разработки AR-очков 22 мин.
«Роскосмос» запустил рекордное число российских спутников за раз — 51 аппарат, включая два «Ионосфера-М» 35 мин.
Мировые продажи планшетов подскочили на 20 % — Amazon и Huawei выросли сильнее всех, тогда как Apple теряет рынок 2 ч.
«Мы получили $0 из грантов CHIPS» — глава Intel пожаловался, что США тормозят выплаты по «Закону о чипах» 2 ч.
Слишком много «зелёной» энергии — не всегда хорошо: Нидерланды приняли новые нормы работы энергосетей 3 ч.
Новая статья: Обзор смартфона Apple iPhone 16 Pro Max: ух ты, новая кнопка! 10 ч.
Новая статья: ИИтоги октября 2024 г.: не так страшны боты, как их генерируют 12 ч.
Thermal Grizzly представила бюджетные термопасты Polartherm X10 и Polartherm X8 12 ч.
SK hynix ускорит создание памяти HBM4, потому что об этом попросил глава Nvidia 17 ч.