Сегодня 08 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
OpenAI выпустила GPT-Realtime-2 и ещё две голосовые модели, но доступны они лишь через API 7 мин.
Dirty Frag превзошла Copy Fail: вторая за месяц критическая уязвимость Linux осталась без исправлений 33 мин.
Хакеры теперь грабят хакеров: новая группировка PCPJack перехватывает заражённые сети 2 ч.
ИИ-агент Perplexity Personal Computer стал доступен всем пользователям Apple macOS 2 ч.
Xiaomi представила OmniVoice — открытую ИИ-модель, которая озвучит текст почти на любом языке и скопирует голос 2 ч.
Диско снова в моде: неоновый экшен Dead as Disco порадовал разработчика продажами 2 ч.
«Леон должен умереть навсегда»: Capcom выпустила для Resident Evil Requiem обновление с новым режимом, и фанаты «Наёмников» не рады 3 ч.
В ChatGPT появился «доверенный контакт» — его уведомят, если пользователь захочет навредить себе 3 ч.
OpenAI распустила две команды по безопасности ИИ ради прибыли, заявила бывшая сотрудница стартапа 3 ч.
Приложение Fitbit превратилось в Google Health — и сможет собирать данные о здоровье даже из Apple Health 15 ч.
Аккумуляторы Tesla 4680 оказались хуже сторонних, хотя Илон Маск обещал обратное 58 мин.
Представлен стабилизатор для смартфонов DJI Osmo Mobile 8P — теперь со съёмным дисплеем-пультом 59 мин.
Apple завершила разработку наушников AirPods с камерами и скоро запустит серийное производство 60 мин.
NVIDIA и Iren объединили усилия для создания ИИ-инфраструктуры мощностью до 5 ГВт 3 ч.
Arm уже получает 15 % выручки от серверного направления и рассчитывает утроить её к 2031 году 5 ч.
AMD представила ускоритель Instinct MI350P — CDNA 4 в формате PCIe 11 ч.
Новая статья: Ноутбук DIGMA PRO Pactos на процессоре AMD Ryzen 5 7430U: скромность украшает 12 ч.
GeIL анонсировала модули DDR5, которые работают со скоростью 8000 МТ/с без разгона 14 ч.
AMD выпустила ИИ-ускоритель Instinct MI350P с 144 Гбайт HBM3E, PCIe 5.0 x16 и потреблением 600 Вт 15 ч.
Компания Ploopy «отделила» культовый манипулятор TrackPoint от ноутбуков ThinkPad и превратила его в портативную мышь 16 ч.