Сегодня 05 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Российский банк впервые начал выдавать кредиты под залог биткоинов 26 мин.
Осенью в Substack произошла утечка данных пользователей — обнаружили её только в феврале 44 мин.
Слухи: версия Starfield для PS5 не заставит себя долго ждать, а релиз на Switch 2 под угрозой 2 ч.
«Роботам нужно ваше тело»: сервис RentAHuman.ai позволит ИИ-агентам нанимать людей для работы в реальном мире 3 ч.
Олдскульный ролевой боевик Kromlech в духе «Готики» отправит игроков в мир на грани гибели — новый трейлер и дата выхода в раннем доступе Steam 4 ч.
Аудитория Google Gemini достигла 750 млн активных пользователей в месяц — до ChatGPT осталось совсем чуть-чуть 5 ч.
Создатель классической Prince of Persia расстроен «жестокой» отменой ремейка Prince of Persia: The Sands of Time, но надежды не теряет 6 ч.
Моддеры взялись воссоздавать отменённую Fallout 3 на движке Fallout: New Vegas — первый трейлер Fallout: The New West 6 ч.
Выручка YouTube достигла рекордных $60 млрд в 2025 году — больше, чем у Netflix 6 ч.
Годовая выручка Google впервые превысила $400 млрд — забрасывание ИИ деньгами усилится 7 ч.
Из-за дефицита памяти у Raspberry Pi 4 появился версия со «сдвоенной» RAM, а 16-Гбайт версия Raspberry Pi 5 существенно подорожала 3 мин.
BMW признала подписку на обогрев сидений перегибом, но не откажется от разблокировки функций за доплату 16 мин.
SpaceX вопреки традициям намерена попасть в фондовые индексы сразу после IPO 2 ч.
Китайский рынок электромобилей забуксовал — продажи BYD в январе рухнули до минимума за два года 2 ч.
Флагманские Dimensity разогнали выручку MediaTek до $10 млрд — но 2026 год обещает быть сложным 2 ч.
Canon выпустила юбилейную «мыльницу» по цене «зеркалки» — PowerShot G7 X Mark III Anniversary Edition 2 ч.
Юпитер слегка «усох»: зонд «Юнона» уточнил реальные размеры самой большой планеты Солнечной системы 2 ч.
Supermicro удвоила квартальную выручку на фоне спроса на ИИ-оборудование, но прибыль выросла лишь на четверть 3 ч.
Alphacool представила жидкие термопрокладки Apex Thermal Putty X1 3 ч.
Sony научилась зарабатывать без роста продаж — рухнувшие на 16 % поставки PS5 компенсировали подписки 4 ч.