Сегодня 01 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Окей, Google, давай пообщаемся»: представлен ИИ-помощник Gemini for Home для умного дома 29 мин.
У Assassin's Creed, Far Cry и Rainbow Six теперь новый дом, которым частично владеет Tencent — Ubisoft представила Vantage Studios 60 мин.
Microsoft вывела Xbox Cloud Gaming из беты, подтянула графику до 1440p и повысила битрейт 2 ч.
Meta начнёт использовать чаты пользователей с ИИ, чтобы продавать ещё более персонализированную рекламу 2 ч.
Ultimate за $30, ПК-игры и Xbox Cloud Gaming для всех: Microsoft анонсировала масштабные изменения в Game Pass 2 ч.
Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ 4 ч.
Epic Games: iOS 18.6 показала, что барьеры для сторонних магазинов приложений были искусственными 4 ч.
Apple, Google и Meta ответят в суде за рекламу вызывающих зависимость игр-казино 6 ч.
Apple назвала антимонопольный иск Маска к ней и OpenAI пустышкой и попросила его отклонить 7 ч.
«Ничего подобного мы раньше не делали»: нелинейный шутер Judas от авторов BioShock на самом деле «радикально отличается» от BioShock 7 ч.
Apple приступила к разработке гарнитуры Vision Pro 2, подтвердила свежая утечка 20 мин.
Asus оценила GeForce RTX 5080 Hatsune Miku Edition в $1900 — на 90 % дороже рекомендованной цены 47 мин.
OpenAI построит ИИ ЦОД Stargate в Южной Корее, а Samsung поможет ей создать плавучие дата-центры 2 ч.
OpenAI объединится с Samsung и SK hynix, чтобы удовлетворить потребность в памяти для ИИ-мегапроекта Stargate 2 ч.
Oura представила керамические умные кольца Ring 4 за $499, зарядный футляр за $99 и медицинский сервис за $99 2 ч.
Сегодня в России отмечается День работников отрасли ЦОД 3 ч.
Selectel проведёт ежегодную флагманскую конференцию Selectel Tech Day 2025 в Москве 3 ч.
Паукообразный робот Charlotte будет возводить по дому в день — и на Луне тоже 3 ч.
Crucial выпустила самую быструю память LPCAMM2 LPDDR5X для ноутбуков — 8533 МТ/с 3 ч.
В гейзерах спутника Сатурна Энцелада засекли органику, намекающую на зарождение жизни — данные зонда «Кассини» 3 ч.