Сегодня 22 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → вектор

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.


window-new
Soft
Hard
Тренды 🔥
Продажи инди-хита Meccha Chameleon превысили 7 миллионов копий менее чем за две недели — даже Resident Evil Requiem покупают не так быстро 34 мин.
Законопроект о регулировании ИИ в России кардинально сократили и упростили 35 мин.
AMD добавила официальную поддержку апскейлера FSR 4.1 видеокартам Radeon RX 7000 2 ч.
Санкции не помогли: ИИ-модель китайской Z.ai, обученная на чипах Huawei, заняла лидирующие позиции в рейтингах 2 ч.
Регулирование российского ИИ сделают не таким строгим, как хотели вначале 2 ч.
Кооперативный боевик с шотландским колоритом Tears of Metal скоро ворвётся в ранний доступ Steam — дата выхода и новый трейлер 2 ч.
В китайском WeChat появился собственный ИИ-ассистент Xiaowei 5 ч.
Бигтеху может грозить судьба производителей табачной продукции 6 ч.
Карточный роглайк Fogpiercer про управление поездом в смертоносном тумане получил дату релиза 7 ч.
Новая статья: Репортаж с IEM Cologne Major 2026: Жаб Жабыч, триумф NiKo и главные сенсации мейджора по CS2 8 ч.
Квартальные продажи СХД подскочили почти на четверть, а доля All-Flash хранилищ впервые перевалила за 50 % 31 мин.
SpaceX запустила больше спутников, чем всё остальное человечество с 1957 года 4 ч.
Samsung ускорила достройку крупнейшего комплекса по производству памяти — мощности компании удвоятся 5 ч.
TSMC ускорила отказ от зрелых технологий ради миграции на передовые 6 ч.
Critical Energy привлекла $22 млн на строительство модульных геотермальных электростанций для ИИ ЦОД 7 ч.
Саудовская DataVolt строит в Узбекистане 12-МВт дата-центр стоимостью $150 млн 7 ч.
Intersect360: годовой объём мирового рынка ИИ-инфраструктур превысил $300 млрд 7 ч.
SK hynix стала самой дорогой южнокорейской компанией, обойдя Samsung Electronics 9 ч.
Hyperscale Data откроет «школу» для роботов-гуманоидов в собственном ЦОД 11 ч.
Одноплатный компьютер Orange Pi 6 получил 12-ядерный процессор и два порта 2.5GbE 11 ч.