Сегодня 23 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → вектор

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.


window-new
Soft
Hard
Тренды 🔥
Microsoft объявила о партнёрстве между Xbox и Discord, но скрыла детали 2 ч.
Google начала рекламировать поумневшую Apple Siri — в её основу ляжет ИИ Gemini 2 ч.
Tides of Tomorrow уже в продаже: асинхронное приключение от авторов Road 96, где игрок расплачивается за ошибки своих предшественников 2 ч.
Tencent и Alibaba готовы инвестировать в DeepSeek — стартап уже оценивается в более чем $20 млрд 4 ч.
В Steam и на консолях стартовала закрытая «бета» амбициозного ролевого боевика The Expanse: Osiris Reborn в духе Mass Effect — 35 минут геймплея 6 ч.
Первая за 25 лет новая игра о приключениях разумного дельфина Экко войдёт в сборник Ecco the Dolphin: Complete — подробности «правильного ремастера» 7 ч.
«Google Карты» скоро получат мощную порцию искусственного интеллекта 8 ч.
Паранормальный экшен Control теперь доступен на iPhone и iPad — с переработанным управлением и не только 8 ч.
В популярном ИИ-протоколе нашли критическую уязвимость — отвечающая за него Anthropic ничего исправлять не будет 8 ч.
Разработчики приложения Telega пожаловались на Apple в ФАС 9 ч.
Новый великий космический телескоп NASA «Роман» прошёл основные испытания — до запуска меньше пяти месяцев 3 ч.
Дата-центры приносят экономике больше вреда, чем пользы — страдают экология и здоровье людей 4 ч.
Google представила пару ИИ-чипов TPU 8 с упором на эффективность и комплексный ИИ-сервис Workspace Intelligence 5 ч.
Начались продажи флагманского процессора Ryzen 9 9950X3D2 Dual Edition с двойным 3D V-Cache за $899 5 ч.
Meta подала заявку на расширение кампуса в Эль-Пасо и анонсировала 28-й по счёту дата-центр в США — в Талсе 6 ч.
Стартап Миры Мурати закупил у Google мощности для обучения ИИ на несколько миллиардов 8 ч.
Asus перестала выпускать смартфоны, но готовит большой планшет 8 ч.
Anthropic ищет аналитика для оценки геополитических рисков и угроз персоналу, офисам и дата-центрам 9 ч.
Гигантская звезда заставила джет чёрной дыры трепетать как пламя свечи на ветру 10 ч.
ЕС всё-таки разрешит несъёмные батареи в смартфонах, но будут лазейки 10 ч.