Сегодня 08 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Steam открылось тестирование Valor Mortis от разработчиков Ghostrunner — ролевого боевика от первого лица в духе Dark Souls и BioShock 3 ч.
Самое большое дополнение в истории Crusader Kings 3 не заставит себя долго ждать — дата выхода и новый трейлер All Under Heaven 4 ч.
Изгнанные Маском без выходного пособия топ-менеджеры Twitter добились «справедливости» через суд 4 ч.
Ninja Gaiden 4, Baldur’s Gate, новая игра от создателей Psychonauts и многое другое: Microsoft раскрыла первые новинки Game Pass после подорожания 5 ч.
«Билайн Big Data & AI» и IVA Technologies займутся совместной разработкой ИИ-продуктов 5 ч.
«Интернет — не свалка для негатива»: в китайских соцсетях массово банят пессимистов 5 ч.
Еврокомиссия выделит €1 млрд на внедрение ИИ в десяти отраслях 6 ч.
Демоны, титаны и невообразимые ужасы: новый геймплейный трейлер Painkiller показал, почему в чистилище веселее с друзьями 6 ч.
Российский рынок IaaS и PaaS отметился 30-проценным ростом с начала года 8 ч.
Beeline Cloud представил комплексное решение для работы с «1С» в защищённом облаке 10 ч.
Blue Origin совершила 15-й запуск корабля New Shepard с шестью туристами 4 мин.
Спутниковая группировка Starlink теряет по спутнику в день — они сгорают в атмосфере или падают на Землю 43 мин.
AST SpaceMobile перехватила клиента у Starlink — компания обеспечит видеозвонки через спутник для Verizon 58 мин.
В России стартовали продажи роботов-пылесосов Dreame MatriX10 Ultra и Dreame Aqua10 Ultra Roller Complete 2 ч.
Нобелевскую премию по химии за 2025 года присудили за открытие «домика для молекул» 4 ч.
Sennheiser представила наушники HDB 630 — «первый беспроводной продукт для аудиофилов» 5 ч.
AOC представила 27- и 32-дюймовые игровые мониторы на Fast IPS с разрешением до 4K и частотой до 320 Гц 6 ч.
Дженсен Хуанг «удивился» условиям сделки между AMD и OpenAI, но назвал её «хитрым ходом» 6 ч.
Сатья Наделла, Дженсен Хуанг и Майкл Делл спасли нового главу Intel от быстрой отставки 6 ч.
Google намерена построить до шести ЦОД рядом с остановленной АЭС DAEC в Айове, которую хотят перезапустить 6 ч.