Сегодня 13 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Вышла iOS 18.5, которая принесла на iPhone 13 бесплатную спутниковую связь 9 мин.
Sony случайно «слила» трейлер с датой выхода Stellar Blade на ПК 46 мин.
Doom: The Dark Ages по ошибке вышла в Steam раньше времени, но не для всех 3 ч.
«Давайте нам деньги и вычислительные ресурсы и не путайтесь под ногами»: OpenAI и Microsoft пытаются договориться о продолжении сотрудничества на фоне роста амбиций стартапа 4 ч.
Календарь релизов — 12–18 мая: Doom: The Dark Ages, The Precinct и Preserve 4 ч.
Remedy анонсировала закрытое тестирование шутера FBC: Firebreak по мотивам Control — сроки, системные требования, доступный контент 4 ч.
Nvidia выпустила драйвер GeForce с поддержкой Doom: The Dark Ages 6 ч.
Вышла новая версия песочницы Kaspersky Research Sandbox 3.0 с расширенными возможностями для ИБ-специалистов 6 ч.
Смартфоны Honor 400 смогут анимировать фото с помощью ИИ-генератора от Google 7 ч.
Датамайнер рассекретил планы Rockstar на ремастеры GTA IV и Max Payne 3 7 ч.
Новая статья: Обзор робота-пылесоса Midea VCR S10 Plus: одноразовые мешки для сбора мусора, прощайте! 20 мин.
Google и Elementl реализуют в США три 600-МВт атомных проекта 3 ч.
Western Digital инвестирует в технологию вечного хранения данных на керамике Cerabyte 4 ч.
Оперативная память скоро подорожает: Samsung подняла контрактные цены на DRAM 6 ч.
Космический телескоп «Джеймс Уэбб» показал полярное сияние на Юпитере — в сотни раз ярче, чем на Земле 6 ч.
CoreWeave всего через несколько недель после IPO захотела взять в долг ещё $1,5 млрд 7 ч.
Облако.ру предлагает ИИ-системы, которые позволят запускать даже мощные ИИ-модели 7 ч.
Apple поднимет цены на iPhone, но пока не придумала, чем это объяснить 8 ч.
Акции техногигантов подскочили после приостановки тарифов между США и Китаем 8 ч.
Nvidia негласно подняла цены на все чипы: GeForce подорожали на 5–10 %, а ИИ-ускорители — на 10–15 % 8 ч.