Сегодня 01 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
На долю взлома аккаунтов на «Госуслугах» приходится 90 % от общего числа преступлений с неправомерным доступом к данным 4 ч.
Новая статья: RoadCraft — восстановление разрушенного. Рецензия 11 ч.
Новая статья: Gamesblender № 728: SteamOS против Windows, анонсы Warhammer Skulls и вторая жизнь WRC 11 ч.
В Twitch появятся перемотка, вертикальные трансляции и не только 19 ч.
Суд склоняется к мягким мерам по устранению монополии Google в онлайн-поиске, но окончательное решение придётся подождать 21 ч.
Google запустила ИИ-генератор видео Veo 3 для мобильных устройств на Android и iOS 31-05 08:11
Microsoft добавила в «Блокнот» возможности форматирования текста почти как в Word 31-05 07:06
OpenAI хочет, чтобы ChatGPT стал личным секретарём для каждого 31-05 07:03
Новая статья: The Slormancer — Diablo без заморочек. Рецензия 31-05 00:01
Моддер уже добавил в Elden Ring Nightreign режим для двух игроков, о котором забыли разработчики 30-05 23:05
SpaceX вывела на орбиту очередную партию спутников Starlink и снова посадила первую ступень носителя 3 ч.
Intel и SoftBank намерены разработать более экономичную альтернативу памяти HBM 3 ч.
Huawei за время нахождения под санкциями вложила деньги в более чем 60 китайских компаний полупроводникового сектора 4 ч.
Тонкий Galaxy S25 Edge показал удивительную прочность в тесте на изгиб и других испытаниях 9 ч.
Intel представила EMIB-T — технологию упаковки многокристальных чипов с поддержкой HBM4 и UCIe 9 ч.
Hugging Face выпустила человекоподобного робота HopeJR всего за $3000 17 ч.
WSJ: план США по сдерживанию развития китайских технологий не работает 19 ч.
Dell получила рекордный объём заказов на ИИ-серверы и повысила прогноз по прибыли на год 21 ч.
Шум во благо: физики добились квантовой «гиперзапутанности» атомов при помощи лазерного пинцета 22 ч.
Скидки на iPhone сработали: продажи иностранных смартфонов в Китае слегка подросли в апреле 22 ч.