Сегодня 26 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Закрытие OpenAI ИИ-генератора видео Sora обрушило миллиардную сделку с Walt Disney 24 мин.
Разработчики Lords of the Fallen 2 показали, как прокачали царство мёртвых после критики игроков — новый геймплейный тизер 2 ч.
Суд в США впервые обязал Google и Meta выплатить $6 млн пользователю по делу о зависимости от соцсетей 4 ч.
Google назвала Android в связке с Chrome самой быстрой платформой для веб-сёрфинга 5 ч.
Microsoft запустила ИИ-рестайлинг фотографий — и это не Copilot 10 ч.
YouTube завалил некоторых пользователей проверками CAPTCHA перед просмотром видео 11 ч.
В России арестовали администратора одной из крупнейших хакерских площадок LeakBase 11 ч.
Разработчик «Мира танков» решил проблему с долгом государству на 11 миллиардов рублей — исполнительное производство прекращено 11 ч.
Древний ужас пробуждается в геймплейном трейлере Cthulhu: The Cosmic Abyss — детективного хоррора по мотивам творчества Лавкрафта 12 ч.
Google выпустила ИИ-модель Lyria 3 Pro для генерации трёхминутных музыкальных треков — но не бесплатно 13 ч.
Samsung Galaxy Z Fold8 Wide показался на изображениях — он станет ответом на первый складной iPhone 3 мин.
Китай может занять до 42 % рынка массовых чипов к 2028 году благодаря ИИ 4 мин.
Половина компаний, заменивших людей ИИ-ботами, вернётся к найму персонала в следующем году 2 ч.
Дорожает всё: вслед за памятью и CPU подорожают даже «простые» чипы 3 ч.
Потребительское подразделение Sennheiser снова выставили на продажу 4 ч.
В Meta новая волна увольнений — всё ради искусственного интеллекта 5 ч.
Sandisk купила кусочек тайваньского производителя памяти Nanya, чтобы обеспечить себе доступ к DRAM для SSD 6 ч.
Новая статья: Система жидкостного охлаждения ID-Cooling FX360 LCD: кому котиков? Недорого 11 ч.
MaxSun представила свои варианты Arc Pro B70 — с активным и пассивным охлаждением 13 ч.
Google поведёт квантовые компьютеры по гибридному пути: к сверхпроводящим кубитам добавят нейтральные атомы 13 ч.