Сегодня 12 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → вектор

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.


window-new
Soft
Hard
Тренды 🔥
Разработчики Heroes of Might & Magic: Olden Era показали, как улучшили фракцию «Подземелье» после критики игроков 34 мин.
Тысячи роутеров превратили в ботнет, который не получается удалить — но способ борьбы есть 2 ч.
Акции Oracle подскочили почти на 10 % благодаря высоким результатам и сильному прогнозу 2 ч.
В работе Telegram произошёл очередной сбой — на этот раз глобальный 3 ч.
В Google Play Games появятся новые платные игры для ПК 4 ч.
Режиссёр Resident Evil 2 посчитал Resident Evil Requiem слишком страшной и призвал добавить в игру режим с милыми зомби — Capcom отреагировала 6 ч.
Google завершила сделку по покупке Wiz за $32 млрд, обеспечив облачным клиентам новые инструменты защиты 6 ч.
«Slay the Spire 2 захватила его жизнь»: из-за новой одержимости гендиректора Pocketpair релизная версия Palworld выйдет «как минимум» на день позже 6 ч.
Google разрешит пробовать мобильные игры перед покупкой 7 ч.
В WhatsApp появились аккаунты для самых маленьких — их полностью контролируют родители 8 ч.
Тяжёлый люкс: Dreame показала смартфоны за $15 000 5 мин.
В последние дни в Москве взлетел спрос на пейджеры, радиостанции и стационарные телефоны 32 мин.
Представлен смартфон-кирпич Energizer P30K Apex — с батареей на 30 000 мА·ч и 200-Мп камерой за €399 35 мин.
«Алису» во всех умных колонках и телевизорах «Яндекса» перевели на передовую ИИ-модель 45 мин.
Представлен смартфон iQOO Z11x 5G с процессором Dimensity 7400 Turbo, 50-Мп камерой и батареей на 7200 мА·ч 47 мин.
«Яндекс» заверила, что её умные колонки никогда не взламывали удалённо 2 ч.
Сами мы не местные: выяснилось, что Солнце и тысячи его близнецов родились недалеко от центра нашей галактики 3 ч.
RuVDS запустил дата-центр в Антарктиде 3 ч.
Разборка Apple MacBook Neo оказалась на удивление простой — даже батарея не приклеена 3 ч.
3i Infrastructure приобрела контрольный пакет норвежского подземного ЦОД Lefdal Mine Datacenter за €300 млн 3 ч.