Сегодня 26 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Microsoft представила Kosmos-1 — ИИ, который понимает текст с картинками и решает головоломки

Microsoft представила мультимодальную ИИ-модель Kosmos-1, способную анализировать содержание изображений, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ и понимать команды на естественном языке. Учёные считают, что создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей.

 Источник изображения: 0fjd125gk87/pixabay.com

Источник изображения: 0fjd125gk87 / pixabay.com

По мнению исследователей, мультимодальное восприятие является необходимым элементом для создания AGI в контексте получения знаний и связи с реальным миром. Подробности концепции изложены в работе Language Is Not All You Need: Aligning Perception with Language Models, посвящённой структуре нового искусственного интеллекта. В работе рассказывается о том, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к иллюстрациям и проходит визуальный тест на IQ.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач — именно это является конечной целью OpenAI, ключевого партнёра Microsoft в сфере ИИ. Впрочем, Kosmos-1, похоже, является проектом исключительно Microsoft. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Для понимания изображения по аналогии с ChatGPT новая система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются вычислительной машиной. В дальнейшем текст и другие элементы обрабатываются специальным декодером.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Известно, что Microsoft тренировала Kosmos-1, используя информацию из глобальной сети. После обучения возможности системы были проверены с помощью серии тестов, включающих оценку понимания языка, генерации текстов, классификации текстов без оптического распознавания символов. Проверялась возможность описания изображений, ответов на «визуальные» вопросы и выполнения других задач. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Наибольший интерес представляет способность модели пройти тест британского психолога Джона К. Рейвена (John C. Raven), позволяющего измерить IQ, демонстрируя испытуемому последовательность форм с предложением продолжить её. Правда, пока Kosmos-1 может пройти тест Рейвена с точностью только 22‒26 %.

 Источник изображения: Microsoft

Источник изображения: Microsoft

В настоящий момент модель делает только первые шаги в сфере мультимодальной обработки данных, но нетрудно предположить, что дальнейшие улучшения позволят добиться намного более впечатляющих результатов, позволяя ИИ взаимодействовать с любыми формами информации, что невероятно расширит возможности цифровых ассистентов. В будущем учёные обещают масштабировать модель и добавить ей возможность вести беседы.

В Microsoft сообщили, что планируют сделать Kosmos-1 доступным сторонним разработчикам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Telegram обновился: рекомендованные каналы, дни рождения, трансляция геопозиции и аватарки при пересылке 5 мин.
В Steam и на консолях вышел боевик Another Crab's Treasure в духе Dark Souls, но про краба-отшельника — игроки в восторге 25 мин.
TikTok не рассматривает продажу американского бизнеса — соцсеть просто закроется в США 59 мин.
Blizzard отменила BlizzCon 2024, но с пустыми руками фанатов не оставит 2 ч.
Состоялся релиз «Кибер Инфраструктуры» версии 5.5 с VDI, DRS и рядом других улучшений 2 ч.
Объявлены обладатели международной премии Workspace Digital Awards-2024 3 ч.
ИИ-стартап Synthesia разработал по-настоящему эмоциональные аватары, которые так и просятся в дипфейки 4 ч.
Intel выпустила драйвер с поддержкой Manor Lords 4 ч.
Один из лучших модов для Doom II скоро получит ремейк на Unreal Engine 5 — страница Total Chaos появилась в Steam 5 ч.
Wizardry: Proving Grounds of the Mad Overlord скоро вырвется из раннего доступа и появится на консолях — дата выхода ремейка одной из первых компьютерных RPG 5 ч.
Apple избавилась от директора по маркетингу Vision Pro — с продажами гарнитуры и правда не всё в порядке 3 ч.
Китай отправил на космическую станцию пилотируемый корабль «Шэньчжоу-18» с тремя тайконавтами 3 ч.
В Китае испытали нейроинтерфейс Neucyber, который составит конкуренцию Neuralink 4 ч.
Cooler Master представила корпус MasterBox 600 с поддержкой плат с разъёмами на обороте 4 ч.
Китайские компании во главе с Huawei выпустят собственные чипы памяти HBM к 2026 году 4 ч.
Потребление воды китайскими ЦОД удвоится к 2030 году, дойдя до более чем 3 млрд кубометров 5 ч.
Выяснились подробности о мобильных процессорах AMD Strix Point и Strix Halo на архитектуре Zen 5 6 ч.
Новая статья: Обзор IPPON Game Power Pro 1000: ИБП с чистой синусоидой для игровых ПК 6 ч.
«Почта России» начала тестирование автономного грузовика Evocargo N1 — он ездит со скоростью 20 км/ч 6 ч.
Nvidia анонсировала выступление Дженсена Хуанга за день до начала Computex 2024 6 ч.