Сегодня 31 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Становится только хуже»: инсайдер рассекретил ещё одну игру из апрельской подборки PS Plus, и фанаты не рады 5 ч.
Microsoft анонсировала крупную игровую презентацию Xbox Games Showcase 2026 и первый за два года показ Gears of War: E-Day 7 ч.
Microsoft серьёзно улучшит поиск в Windows 11 после многолетних жалоб 8 ч.
Microsoft отозвала очередное обновление Windows 11 из-за отсутствующих или повреждённых файлов 8 ч.
Российские власти собираются наказывать пользователей VPN, для начала финансово 8 ч.
Россиянам запретят пополнение Apple ID с мобильного счёта — так распорядились власти РФ 11 ч.
Dolby подала в суд на Snapchat за использование бесплатного кодека AV1 13 ч.
Crimson Desert побила личный рекорд популярности в Steam на фоне нового крупного обновления 13 ч.
«Это буквально всё, что мне было нужно»: трейлер с датой выхода файтинга Avatar Legends: The Fighting Game привёл фанатов в восторг 13 ч.
Samsung и Google научат Android передавать файлы касанием — почти как AirDrop 14 ч.
Новая статья: Обзор видеокарты Predator BiFrost Radeon RX 9070 XT OC: матч-реванш 2 ч.
Представлен флагман Vivo X300s с камерой Zeiss на 200 Мп, чипом Dimensity 9500 и ценой $723 5 ч.
Великобритания оштрафовала Apple на £390 000 за нарушение санкций против России 6 ч.
Представлен флагманский смартфон Vivo X300 Ultra с двумя 200-Мп камерами и съёмной оптикой по цене от $1000 8 ч.
Переломного «ChatGPT-момента» в сфере человекоподобных роботов придётся ждать ещё до 10 лет 8 ч.
MSI выпустила 27-дюймовый монитор Pro Max 271QPHW E14 с круговой поляризацией, QHD и 144 Гц 10 ч.
США ускорят отказ от медных телеком-сетей 11 ч.
Исследователи разработали «глубинный Wi-Fi» — беспроводную передачу данных под землёй на глубину до 100 метров 11 ч.
За первую неделю Xiaomi поставила 5000 обновлённых электромобилей Xiaomi SU7 11 ч.
Французская Mistral AI привлекла в долг $830 млн для оснащения ИИ ЦОД и конкуренции с американскими техногигантами 12 ч.