Сегодня 20 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft раскрыла сроки выпуска Windows 11 26H2 и аппаратные требования 18 мин.
Трамп перестал считать Anthropic угрозой нацбезопасности США 23 мин.
Новая статья: Solarpunk — выживание под солнечными лучами. Рецензия 11 ч.
«Спасибо за вашу страсть к игре»: Valve поздравила Counter-Strike с 27-летием 15 ч.
Никакого ИИ в браузере — Vivaldi пообещала «сохранить человеческий подход к просмотру веб-страниц» 16 ч.
Слухи: амбициозный самурайский боевик Onimusha: Way of the Sword от Capcom выйдет на три недели раньше запланированного 18 ч.
Google заявила о готовности запустить программу верификации разработчиков и приложений 18 ч.
В последнем обновлении Windows 11 сломалась «Корзина» и запуск приложений Office 19 ч.
У Google Android 17 проявились первые сбои: исчезают виджеты, отказывает Wi-Fi в приложениях 21 ч.
Alibaba Cloud делает ставку на развитие во Франции, а Европа желает получить больше контроля над ИИ-инфраструктурой 21 ч.
Samsung подтвердила разработку чипа Exynos 2700 и его возможное появление в Galaxy S27 27 мин.
Hyundai полностью выкупит Boston Dynamics у SoftBank 11 ч.
Зонд NASA Lucy встретил кувыркающийся астероид-гантель и нашёл на нём следы древней воды 14 ч.
«Логарифмический» ИИ-ускоритель Tensordyne Napier обещает выскоую производительность при минимальном энергопотреблении 16 ч.
Современные роботы освоили многое, но окружающий мир они всё ещё не понимают 16 ч.
«Не можем создать смартфон», — Nothing отменила выпуск CMF Phone 3 Pro из-за роста цен на память 17 ч.
Сбербанк этой осенью представит человекоподобных роботов собственной разработки 18 ч.
Потребительский SATA SSD выдержал 15 000 полных перезаписей за 16 лет и продолжает работать 18 ч.
Cloud.ru начал строительство собственного ЦОД в Московской области 19 ч.
В Тасмании начали строить «чёрный ящик Земли» — сверхзащищённый бункер с климатическим архивом планеты 19 ч.