Сегодня 03 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → база данных

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.

Новая статья: Полная гомоморфность — и никакого доверия!

Данные берутся из публикации Полная гомоморфность — и никакого доверия!

Keenetic с задержкой призналась пользователям о взломе базы данных своего мобильного приложения

Производитель роутеров Keenetic Limited предупредил пользователей мобильного приложения Keenetic, зарегистрировавшихся до 16 марта 2023 года, о взломе базы данных, в связи с чем сторонние лица могли получить доступ к их персональной информации.

 Источник изображения: Keenetic

Источник изображения: Keenetic

В 2023 году 15 марта в Keenetic поступило сообщение независимого исследователя по ИТ-безопасности о возможности несанкционированного доступа к базе данных мобильного приложения Keenetic, после чего в тот же день проблема была устранена. Исследователь по ИТ-безопасности заверил компанию, что данные о взломе он никому не передавал и уничтожил их. И до конца февраля 2025 года не было никаких признаков того, что база была скомпрометирована или кто-либо пользователь пострадал от утечки данных.

Однако 28 февраля 2025 года компании стало известно, что некоторая информация из базы данных была раскрыта независимому СМИ. Поэтому Keenetic не может гарантировать, что данные были должным образом уничтожены, и некоторая информация всё же не поступила к сторонним лицам. Вместе с тем исходя из характера данных, которые потенциально могут быть раскрыты, компания оценивает риск мошеннической активности как низкий.

Как сообщает Keenetic, хакеры могли получить доступ к таким данным, как адреса электронной почты (логины) и имена учётных записей пользователей, логины и пароли клиентов VPN, а также различные сведения о настройках устройств и программного обеспечения, которые не несут угрозы конфиденциальности пользователей.

Keenetic подчеркнула, что не собирает, не хранит и не анализирует данные о платёжных картах или связанных с ними учётных данных, транзакционных данных, банковских реквизитах или банковских паролях. Соответственно злоумышленники не могли получить к ним доступ в результате взлома.

Тем не менее компания рекомендовала пользователям мобильного приложения Keenetic из группы риска сменить пароли учётных записей, пароли Wi-Fi, VPN-клиентов/предварительные ключи для: PPTP/L2TP, L2TP/IPSec, IPSec Site-to-Site, SSTP.

Keenetic также выразила уверенность в том, что несанкционированный доступ произошёл без какого-либо мошеннического или злого умысла, и информация о базе данных не является общедоступной.

Раскрыта средняя цена украденной базы данных российской компании в даркнете

Средняя стоимость утёкшей базы данных российских компаний в 2024 году составила $450, пишут «Ведомости» со ссылкой на исследование компании Positive Technologies, в котором проанализировано 3500 объявлений на теневых форумах за второе полугодие прошлого года.

 Источник изображения: Joan Gamell/unsplash.com

Источник изображения: Joan Gamell/unsplash.com

В более чем половине (55 %) таких объявлений в мире в среднем указана цена ниже $1 тыс. и лишь в 6 % из них за похищенную информацию просят больше $10 тыс. Самая высокая цена похищенной российской базы данных составила в даркнете в 2024 году $3 тыс. Впрочем, зачастую указывается договорная цена, которая на практике может оказаться выше, уточнили в Positive Technologies, добавив, что обычно стоимость зависит от уникальности данных, их типа, актуальности, размера выборки и значимости компании.

В последние годы средняя цена похищенных данных в даркнете не меняется и составляет от $100 до $1000, рассказали в F6 (ранее F.A.A.C.T. и Group IB). По словам представителя F6, встречаются лоты, за которые требовали $5000–10 000 и даже $500 000, но это редкость. При этом базы в основном содержат компиляции уже ранее встречавшейся в других утечках информации, отметил директор департамента расследований T.Hunter Игорь Бедеров.

Positive Technologies также сообщила о тренде на увеличение размеров утёкших баз данных. Объем баз с данными пользователей и компаний из России составляет в 71 % объявлений более 100 тыс. строк, а на «маленькие» базы данных (менее 10 тыс. строк) приходится около 4 %.

Тренд на увеличение размеров утечек подтверждается статистикой Роскомнадзора, сообщившего о 135 случаях утечек баз данных россиян в сеть с более 710 млн записей в 2024 году. Для сравнения, в 2023 году было зафиксировано 168 фактов утечек, содержащих более 300 млн записей. Следует учесть, что речь идёт об утечках, которые были проверены и подтверждены РКН.

Во второй половине 2024 года большинство обнаруженных в даркнете объявлений об утечках данных в России и странах СНГ касалось баз данных систем магазинов, аптек, онлайн-сервисов, а также сайтов ресторанов и служб доставки, сообщили в Positive Technologies. В топ-3 отраслей по количеству утечек вошли онлайн-торговля, сфера услуг, тематические сайты форумов и личные блоги, отметили в департаменте киберразведки Threat Intelligence компании F6.

По словам директора департамента расследований T.Hunter Игоря Бедерова, рост таких утечек связан с увеличением количества целевых кибератак и низким уровнем кибербезопасности в малом и среднем бизнесе.

Компании РФ с начала года допустили не менее 200 крупных утечек данных своих клиентов

В 2024 году на различных интернет-форумах и Telegram-каналах хакерами было опубликовано не менее 210 баз данных клиентов российских компаний. Как сообщают «Ведомости» со ссылкой на аналитиков департамента киберразведки Threat Intelligence компании F.A.С.С.T. (известная ранее как Group IB), количество утечек возросло.

 Источник изображения: Lewis Kang'ethe Ngugi/Unsplash

Источник изображения: Lewis Kang'ethe Ngugi/Unsplash

По сравнению с 2023 годом рост числа «слитых» данных возросло на 37,25 %, однако следует учесть, что в первые девять месяцев того же года было опубликовано 153 базы. F.A.C.C.T. подтверждает увеличение скомпрометированных записей в базах в текущем году на 7,76 %, при этом число строк составило 250,5 миллионов. По расчётам за прошедший год было опубликовано 397 млн строк, годом ранее — 1,4 млрд, и наименьшие цифры показал 2021 год — всего 33 млн.

Отмечается, что злоумышленники интересуются в первую очередь информацией, содержащей телефонные номера граждан, паспортные данные, дату рождения, Email- и IP-адреса, пароли и место трудоустройства.

«Ведомости» также ссылаются на аналитиков российского сервиса разведки уязвимостей и утечек данных Dlbi (Data Leakage & Breach Intelligence), которые сообщили, что в открытый доступ были выложены, предположительно, данные клиентов сети ресторанов быстрого питания «Бургер Кинг». В целом отмечается, что инциденты чаще фиксируются в сфере торговли и услуг.

Новая статья: В открытом доступе: государственные базы данных, из которых можно извлечь много полезной информации

Данные берутся из публикации В открытом доступе: государственные базы данных, из которых можно извлечь много полезной информации


window-new
Soft
Hard
Тренды 🔥
Геймерскую мышь превратили в шпионский микрофон для прослушки пользователей 9 мин.
AMD, вероятно, решила одну из самых серьезных проблем с генерацией кадров 2 ч.
Облачный игровой сервис Xbox Cloud Gaming скоро станет бесплатным, но есть нюанс 2 ч.
Слухи: ремейк культовой Halo: Combat Evolved создаётся на гибридном движке при участии студии в ответе за The Elder Scrolls IV: Oblivion Remastered 3 ч.
Microsoft предсказала биологические угрозы «нулевого дня» из-за ИИ 4 ч.
Обнаружена уязвимость, которая ставит под угрозу пользователей всех игр на Unity с 2017 года 4 ч.
Cloudflare обновила robots.txt: теперь сайты могут запретить ИИ-чат-ботам воровать контент 5 ч.
Джефф Безос: ИИ — это «промышленный пузырь», но он поможет человечеству 5 ч.
Боссы в Resident Evil Requiem проверят не навыки стрельбы, а смекалку игроков 8 ч.
Технологии Google губят традиционные сайты — спасительные меры могут сделать только хуже 10 ч.
Keenetic ушёл из России — вместо него теперь Netcraze, но для пользователей ничего не поменялось 3 мин.
В Китае собрали крупнейший в мире плавучий ветрогенератор — его ротор охватывает площадь семи футбольных полей 27 мин.
Samsung представит гарнитуру смешанной реальности на Android XR уже в этом месяце 2 ч.
Thermal Grizzly представила эффективные термопрокладки Minus Pad extreme 2 и очень пластичные Minus Pad High Compression 2 ч.
Kodak впервые за годы выпустила новые плёнки Kodacolor — и сама займётся их продажей 2 ч.
До 2,8 МВт за 45 с: Rolls-Royce представила газовый генератор mtu 20V4000 L64 для дата-центров 4 ч.
UKPN начнёт отапливать дома британских малоимущих кластерами из сотен Raspberry Pi 5 ч.
В лучших ИИ-ускорителях Huawei нашли чипы TSMC, Samsung и SK hynix, которых в Китае быть не должно 5 ч.
Задержки поставок ИИ-чипов в ОАЭ на десятки миллиардов долларов расстраивают NVIDIA 6 ч.
Видео: электромобиль Xiaomi SU7 сам включился и попытался сбежать от хозяев 7 ч.