VK запустила на видеоплатформе «VK Видео» поиск с использованием визуально‑языковой модели (VLM), которая одновременно анализирует текст, изображения, звук и видеоряд. Сообщается, что в дальнейшем эта технология появится в других сервисах компании, где есть поисковые системы.
Источник изображения: VK
VLM работает сразу с двумя модальностями — изображением и текстом, учитывая название и описание загруженного на платформу контента, а также его смысл, что обеспечивает более точные ответы на поисковые запросы пользователей. Разработанная специалистами AI VK модель автоматически формирует датасеты, данные о контенте, по которым поисковые алгоритмы подбирают видео, которые подходят к запросу пользователей.
Запуск модели позволит улучшить векторный поиск в продуктах VK, который основан на семантическом значении запроса. В частности, система будет лучше распознавать и учитывать предпочтения пользователя при выборе видео с определённым стилем монтажа и цветокоррекции. А также лучше работать с гибридными запросами, содержащими текст и визуальные характеристики, например, «влог из Стамбула с видами на Босфор».
Как ожидает компания, благодаря VLM поисковая выдача станет более персонализированной, а также в 5 раз ускорятся разработка и масштабирование новых технологий для развития и улучшения поиска во всех продуктах VK.