Сегодня 21 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft наконец выяснит, почему Windows 11 тормозит на компьютерах пользователей 17 мин.
Хакеры взломали тысячи серверов по всему миру через уязвимость в Microsoft SharePoint 46 мин.
«Ничто не вечно»: гендиректор Ubisoft отреагировал на требования Stop Killing Games 3 ч.
NVIDIA CUDA обзавелась поддержкой RISC-V 3 ч.
Sloclap извинилась перед фанатами Sifu, но о выпуске Rematch не жалеет — футбольная аркада уже достигла 5 миллионов игроков 4 ч.
США потребовали от Великобритании отозвать указ, заставляющий Apple создать бэкдор в iCloud 5 ч.
В России планируют ввести большие штрафы за платежи криптовалютой уже в 2026 году 5 ч.
xAI займётся разработкой Grok для детей, как заявил Илон Маск 12 ч.
Непал заблокировал Telegram — разработчиков мессенджера это удивило 23 ч.
От прошлогоднего сбоя CrowdStrike пострадало не менее 750 больниц в США — разработчики попытались спихнуть часть вины на Microsoft 20-07 16:18
22 июля Земля обернётся вокруг оси быстрее обычного — это будут вторые самые короткие сутки в истории 26 мин.
Анонсированы смартфоны Oppo K13 Turbo и K13 Turbo Pro с вентилятором, RGB-подсветкой и защитой от воды 2 ч.
Дефицитный электромобиль Xiaomi YU7 активизировал спекулянтов в Китае, но на них готовят управу 5 ч.
В Китае назревает технологический перегрев: Си Цзиньпин предостерёг регионы от избыточных инвестиций в ИИ и электромобили 5 ч.
Huawei догнала Apple по выручке от смарт-часов в России 5 ч.
Asus выпустила аниме-видеокарту GeForce RTX 5080 Hatsune Miku Edition за баснословные $2370 7 ч.
Защищённый смартфон FOSSiBOT F107 Pro с цветной камерой ночного видения Starlight Night Vision поступил в продажу — от $399 7 ч.
Asus представила 31,5-дюймовый 6K-монитор ProArt Display 6K PA32QCV для профессионалов за $1299 7 ч.
Fiat представил двухместный электромобиль Topolino без дверей для пляжного отдыха 7 ч.
10 долгих лет: состоялся официальный запуск экзафлопсного суперкомпьютера Aurora 7 ч.