Сегодня 16 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ByteDance пообещала отучить ИИ-генератор Seedance 2.0 копировать голливудских актеров и персонажей 60 мин.
Инсайдер раскрыл, когда выйдет Resident Evil 10, и подтвердил DLC для Resident Evil Requiem 2 ч.
Microsoft устранила сбои загрузки Windows 11, пришедшие с недавним обновлением 3 ч.
Демо в 2026 году, дополнительное финансирование и сериал по мотивам: разработчики «Войны миров: Сибирь» заручились поддержкой издателя 3 ч.
«О чём, чёрт возьми, они думали?»: создатель God of War жёстко раскритиковал метроидванию God of War: Sons of Sparta 5 ч.
Кошачий роглайк Mewgenics от автора The Binding of Isaac опередил Hades 2 по пиковому онлайну в Steam и взял курс на консоли 6 ч.
Alibaba, ByteDance и Kuaishou представили ряд новых ИИ-моделей — от роботов до киношного видео 7 ч.
Инсайдеры: следующая большая игра режиссёра God of War выйдет в 2027 году, а анонс уже не за горами 7 ч.
«Базис» переходит на импортонезависимую платформу «Диво» от экосистемы «Лукоморье» 7 ч.
Sony разработала инструмент для проверки ИИ-музыки на плагиат 9 ч.
Одна из самых редких GeForce RTX 5090 всплыла на eBay по цене от $7000 до $15 000 42 мин.
Марс был влажным и тёплым миллиарды лет назад, а не ледяным, показало свежее исследование 3 ч.
МКС снова укомплектована космонавтами и астронавтами после экстренной эвакуации в январе 4 ч.
Попутного ветра: AWS резко сократила развёртывание СЖО для Trainium3, решив обойтись преимущественно воздушным охлаждением 5 ч.
Китайская Montage Technology выпустила серверные процессоры Jintide на базе Intel Xeon 6 6 ч.
Мировой рынок оптических коммутаторов к 2029 году достигнет $2,5 млрд, но львиная доля всё равно придётся на Google 7 ч.
Оперативная память для ПК перестала дорожать, но модули для ноутбуков взлетели на 23 % за месяц 10 ч.
CXMT и YMTC пропали из американского «чёрного списка» по ошибке — документ уже исправляют 13 ч.
Разработчик китайских Xeon провёл IPO в Гонконге — Montage Technology привлекла почти $1 млрд 16 ч.
Новая статья: Обзор Ryzen 7 9850X3D: три процента за двадцать баксов 16 ч.