Сегодня 19 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Свежий драйвер Nvidia ускорил видеокарты в синтетических тестах, но проблемы со стабильностью остались 2 ч.
«Копидел» поможет в клонировании и массовом развёртывании ОС «Альт» 4 ч.
Поумневшие ИИ-модели OpenAI o3 и o4-mini проявили повышенную склонность к галлюцинациям 7 ч.
EA показала суровую тактическую стратегию Star Wars Zero Company от ветеранов XCOM — первый трейлер и подробности 7 ч.
Новая статья: South of Midnight — соткана по лекалам. Рецензия 20 ч.
Спустя восемь лет «беты» Escape from Tarkov взяла курс на версию 1.0 — план обновлений игры на 2025 год 22 ч.
ChatGPT научился использовать воспоминания о пользователе для персонализации веб-поиска 22 ч.
Создатели следующей Battlefield рассказали о новом «языке разрушения» и показали его в деле 23 ч.
Глава Microsoft Gaming Фил Спенсер намекнул на продолжение Indiana Jones and the Great Circle 24 ч.
Разработчики Everspace 2 решили снизить цену на дополнение Wrath of the Ancients, потому что «вокруг дорожает буквально всё» 18-04 18:32
У земных лишайников обнаружился потенциал для выживания на Марсе 32 мин.
Учёные открыли новый цвет, который невозможно увидеть без стимуляции глаза лазером 38 мин.
8 Гбайт для GeForce RTX 5060 Ti не хватает: урезанная карта провалилась в тестах, но не везде 2 ч.
Nvidia, AMD и другие американские чипмейкеры опасаются, что проиграют Huawei из-за антикитайских санкций США 2 ч.
QNAP выпустила хранилище ES1686dc R2 на 16 SAS-накопителей 4 ч.
Беспилотные автомобили выйдут на российские дороги общего пользования к 2027 году 4 ч.
Tesla без объяснения причин отложила запуск производства доступной версии Model Y 4 ч.
Китайские передовые спутники связи и дальнего зондирования Земли теперь предлагают оптом и в розницу 5 ч.
Багамы отозвали разрешение на посадку ракет SpaceX Falcon 9 у своих берегов 6 ч.
В Пекине прошёл первый в мире полумарафон с участием людей и роботов 6 ч.