Сегодня 20 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Будущее Google в сфере ИИ сильно зависит от доверия пользователей и доступа к их личным данным 10 мин.
Базис, СберТех и Гистех создадут конвейер безопасной разработки для ГосТеха 14 мин.
Google теперь обрабатывает 3,2 квадриллиона ИИ-токенов в месяц — в семь раз больше, чем год назад 38 мин.
В WhatsApp появятся одноразовые сообщения, исчезающие после прочтения 57 мин.
Google представила крупнейшее обновление поиска за более чем 25 лет 2 ч.
Wizards of the Coast отменила грандиозный боевик по Dungeons & Dragons от новой студии режиссёра God of War III и Star Wars Jedi: Survivor 2 ч.
Valve удалила из Steam бесплатную игру, которая втайне похищала данные пользователей 2 ч.
От теории к практике ИИ: Dell анонсировала масштабное обновление платформы AI Factory with NVIDIA 3 ч.
Google Wear OS 7 получила обновления в реальном времени, виджеты и многое другое 3 ч.
Google показала Antigravity 2.0 — платформу для программистов, которая позволит управлять целой «командой» ИИ-агентов 4 ч.
Бум ИИ загнал производителей SSD и модулей памяти в многомиллионные долги 35 мин.
«Байкал Электроникс» готовит ИИ-ускорители с FP8-производительностью до 1 Пфлопс и совместимостью с CUDA 54 мин.
Alibaba представила ускоритель Zhenwu M890, заточенный под работу с ИИ-агентами 2 ч.
«Бюро 1440» обеспечит спутниковым интернетом 135 пассажирских поездов 3 ч.
OpenAI признала дефицит ИИ-мощностей и начала продавать гарантированный доступ к ним 4 ч.
Крупнейшая забастовка в истории Samsung всё ближе — переговоры снова провалились 4 ч.
В Apple началась большая перестройка команд, создающих iPhone, Mac и Vision Pro 5 ч.
NASA испытает первые космические «заправки» для полётов к Луне и Марсу 11 ч.
Sony выпустила юбилейные наушники WH-1000X The ColleXion за $650 с шумоподавлением и урезанной автономностью 12 ч.
Новая статья: Обзор игрового ноутбука MSI Stealth 16 AI+ B3W: не размениваться на мелочи 12 ч.