Сегодня 02 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → вектор

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.


window-new
Soft
Hard
Тренды 🔥
Мультиплеерный стелс-экшен Thick as Thieves от создателя Deus Ex и System Shock стал одиночной игрой с кооперативом на двоих 27 мин.
Отменённая The Last of Us Online была почти готова — ведущего разработчика «убивает, что люди не смогут поиграть в неё» 2 ч.
Ветеран Microsoft: обновления Windows не всегда ломают ПК — иногда они просто вскрывают проблемы 3 ч.
На следующей неделе «Яндекс» проведёт конференцию «День поиска» 3 ч.
Вышла российская операционная система «Альт Мобильный» 11, независимая от Android 3 ч.
Blizzard заинтриговала фанатов StarCraft новой вакансией — шутер с открытым миром на Unreal Engine 3 ч.
Игроки профинансировали русскую озвучку South Park: The Stick of Truth от GamesVoice — она выйдет «до того, как у вас закончатся запасы терпения» 4 ч.
Статистика Steam за март: Linux обогнала macOS, популярность RTX 5070 вернулась к реальности, а AMD отобрала ещё чуть-чуть доли Intel 5 ч.
Cloudflare представила CMS EmDash — «духовного преемника» WordPress 5 ч.
«Яндекс» добавил в определитель номера блокировку всех неизвестных номеров 5 ч.
Piter-IX поднял цены на свои услуги 2 ч.
Поставки электромобилей Tesla рухнули на 14 % за первый квартал — продано всего 358 000 штук 2 ч.
Тепло от дата-центров для ИИ начало сказываться на климате — пока лишь локально, но чувствительно для соседей 3 ч.
Представлен смартфон среднего уровня Honor X80i с чипом Dimensity 6500 Elite, 50-Мп камерой и батареей на 7000 мА·ч 3 ч.
Британские учёные выяснили, что дата-центры подогревают окрестности на километры вокруг 4 ч.
В России хотят «зачистить» рынок связи от небольших операторов — это может спровоцировать рост цен 5 ч.
Иран нанёс новый удар по облачному ЦОД AWS в Бахрейне 7 ч.
Американцы создали память, способную работать при 700 °C — для Венеры, реакторов и ИИ 7 ч.
Gigabyte анонсировала плату X870E Aero X3D Dark Wood с отделкой под тёмное дерево 7 ч.
Удобно устроились: долгосрочные контракты позволят Samsung и SK hynix расширять производство памяти на деньги клиентов 7 ч.