Сегодня 28 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Гора с плеч: SEC отказалась от иска к SolarWinds и её шефу по безопасности из-за нашумевшей атаки SUNBURST пятилетней давности 27 мин.
В Туркменистане узаконили майнинг и криптовалютные биржи 2 ч.
SAP предложила клиентам из Евросоюза суверенное ИИ-облако EU AI Cloud 2 ч.
Бывший сценарист inXile рассекретил, когда выйдет Clockwork Revolution — амбициозная стимпанковая RPG про путешествия во времени 3 ч.
Велосипедный хоррор Quite a Ride от создателя Selfloss «напугал до смерти» даже своего издателя 4 ч.
Control 2 могут показать на The Game Awards 2025 — Remedy зарегистрировала торговую марку Control Resonant 6 ч.
Москвичи и не только массово пожаловались на сбой в работе WhatsApp 7 ч.
«С тех пор игра сильно изменилась»: Ubisoft отреагировала на утечку внутренней презентации ремейка Prince of Persia: The Sands of Time 8 ч.
Steam наконец стал 64-битным — 32-битному клиенту осталось чуть больше месяца 16 ч.
Трассировка лучей на ПК, «Новая игра +» и прокачка «Легенды»: для Dying Light: The Beast вышло самое крупное обновление с релиза 20 ч.
В Минцифры рассказали, как обойти период «охлаждения» для иностранных SIM-карт 49 мин.
В Китае реализуют крупнейший в мире проект по хранению энергии в задутом под землю воздухе 2 ч.
Tesla подсмотрела у китайских конкурентов методы производства машин, признался экс-руководитель отдела продаж 3 ч.
Смартфоны Poco M7 и Redmi Note 14 сочетают высокую функциональность с доступной ценой 3 ч.
В Китае похвастались разработкой ИИ-ускорителя в полтора раза быстрее чипа Nvidia пятилетней давности 4 ч.
Люди даже не представляют, насколько ИИ изменит мир — но завершится всё пузырём, хоть и не скоро 4 ч.
Россияне показали преданность брендам своих смартфонов — больше всего любят Apple, Realme, Xiaomi и Samsung 4 ч.
Астрономы обнаружили молодую звезду с древней химией — похоже, она впитала часть партнёра по системе 4 ч.
Партнёры OpenAI набрали долгов на $100 млрд, чтобы оплатить ИИ-мегапроекты Альтмана 4 ч.
Сервер Giga Computing R284-A91 получил 16 отсеков для CXL-модулей формата E3.S 2T 4 ч.