Сегодня 15 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Поездка затягивается: уютный симулятор путешествий в доме на колёсах Outbound не выйдет 23 апреля 32 мин.
«Вложу всю свою страсть, энергию и душу»: анимационный фильм по Bloodborne оказался в надёжных руках 2 ч.
Snap объявила о сокращении 1000 человек из-за «достижений в области ИИ» 2 ч.
Нет худа без добра: украденные хакерами данные об успехах GTA Online обернулись для Take-Two резким ростом стоимости акций 3 ч.
Еврокомиссия сочла плату WhatsApp за доступ конкурирующих ИИ равносильной запрету 4 ч.
Европейское приложение для верификации возраста пользователей готово к запуску 4 ч.
Переработанная функция Windows Recall всё ещё не отвечает требованиям безопасности 5 ч.
Spotify и звукозаписывающие компании выиграли у Anna’s Archive иск на $322,2 млн, но взыскать эту сумму почти невозможно 5 ч.
Google начала расширять персонализацию Gemini 5 ч.
Марк Цукерберг «перенёс свой рабочий стол» в лабораторию ИИ 6 ч.
Keychron представила беспроводную игровую мышку G3 весом 44 г с флагманской начинкой 33 мин.
Аналитики уверены, что Apple не будет повышать цены на Mac, чтобы перетянуть пользователей ПК 2 ч.
Китайский робот Unitree R1 появился на AliExpress с международной доставкой — он стоит всего $8150 2 ч.
Intel рассказала, каким должен быть игровой ноутбук с ИИ на базе Core Ultra 200HX Plus, — тихим, мощным и холодным 2 ч.
Компания Science бывшего президента Neuralink готовится установить в мозг человека первый биогибридный имплант 2 ч.
Microsoft получит 30 тыс. ИИ-ускорителей NVIDIA Vera Rubin, от которых отказалась OpenAI, отменившая проект Stargate Norway 4 ч.
Lexar: геймеры готовы жертвовать объёмом оперативной памяти, но не SSD 5 ч.
Rolls-Royce анонсировала роскошный электрический кабриолет Project Nightingale — выпустят всего сто экземпляров 5 ч.
Broadcom поможет Meta в создании нескольких поколений ИИ-ускорителей 5 ч.
MSI представила обновлённые ноутбуки Raider, Crosshair, Titan и Cyborg с новыми чипами Intel и графикой RTX 50-й серии 5 ч.