Сегодня 02 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → вектор

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.


window-new
Soft
Hard
Тренды 🔥
Ведущие ИИ-лаборатории озаботились вопросом «сознания» у машин 14 мин.
Google навела порядок в «Play Маркете» — искать скидки и новинки стало проще 2 ч.
Новый трейлер подтвердил дату выхода неонуарного хоррора на выживание Silver Pines в духе «Твин Пикс» 3 ч.
«Silent Hill встретилась с Diablo»: трейлер изометрического хоррора Liminal Point с бывшей рок-звездой в главной роли понравился игрокам 4 ч.
Доработка сюжета, улучшения геймплея и DLC на горизонте: авторы Crimson Desert раскрыли планы на ближайшие обновления 4 ч.
«Базис» реализовал нативную интеграцию с печатными устройствами «Катюша» 5 ч.
«Базис» реализовал нативную интеграцию с печатными устройствами «Катюша» 5 ч.
Reka выберется из дремучего леса раннего доступа Steam уже совсем скоро — новый трейлер и дата выхода симулятора славянской ведьмы 5 ч.
Дуров: криптовалюту TON переименовали в GRAM 7 ч.
Анонсирован духовный наследник Zeus: Master of Olympus — градостроительная стратегия Theos: Cities of Myth, где переплелись история и мифы 8 ч.
MSI показала кулер с алмазами и металлическими вентиляторами для видеокарт нового поколения 17 мин.
iPhone рискуют остаться без поддержки 5G в России — всё из-за нестандартных частот 26 мин.
Учёные наконец собрали воедино «улики» по загадочным радиосигналам из глубин космоса — и приблизились к их разгадке 53 мин.
SAMA привезла на Computex 2026 панорамные корпуса, СЖО с двумя экранами и блоки питания мощностью до 1650 Вт 60 мин.
Phison представила контроллеры для SSD с PCIe 6.0 и эталонные накопители на их основе 2 ч.
В России начались продажи TWS-наушников Realme Buds Air8 Pro с двухполосными динамиками и двойным шумоподавлением 2 ч.
В Огайо перестали действовать налоговые льготы для ЦОД, истощающие казну штата 2 ч.
D-Wave пообещала создавать в 2032 году универсальный квантовый компьютер — лучший, чем у других 2 ч.
Asus представила мышь ROG Harpe II Extreme Edition 20 с прозрачным корпусом, позолотой и ценой $260 2 ч.
MSI представила ноутбуки по мотивам «Истории игрушек» и картин ван Гога 2 ч.