Сегодня 18 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Reddit готовит новый контракт с Google по интеграции с ИИ-сервисами 46 мин.
Даже авторы сценария The Wolf Among Us 2 не знают, что происходит с игрой 10 ч.
Nothing анонсировала OS 4.0 — интерфейс стал проще, а камера умнее 12 ч.
Paradox добавила возмутившие фанатов платные кланы в стандартное издание Vampire: The Masquerade — Bloodlines 2 и анонсировала два сюжетных DLC 12 ч.
Жертвы утечки данных Facebook через Cambridge Analytica начали получать выплаты от Цукерберга 13 ч.
В мессенджере Max начинаются «открытые» тесты каналов — создавать их разрешат блогерам из реестра РКН 13 ч.
В России выплатили первую зарплату в цифровых рублях 14 ч.
На официальном сайте Like a Dragon засветилась Yakuza Kiwami 3 — Ryu Ga Gotoku Studio готовит анонс ремейка Yakuza 3 14 ч.
Rutube объяснил: пиратский контент на хостинг закачивают пользователи, но Netflix пока не жалуется 15 ч.
Microsoft обратилась к ИИ от Anthropic для Visual Studio Code — OpenAI больше не в почёте 16 ч.
Alibaba удалось разработать ИИ-чип T-Head PPU, сопоставимый по характеристикам с Nvidia H20 4 ч.
Новая статья: Обзор «золотого» блока питания GamerStorm PQ1000G (PQA00G-FD) с разъемом 12V-2x6 8 ч.
Глава NVIDIA разочарован запретом Китая на покупку RTX Pro 6000D, но все вопросы будут решаться на высшем уровне 8 ч.
Журналисты протестировали Apple Watch Series 11, Ultra 3 и SE 3 — всем нравится младшая модель 9 ч.
CoreWeave инвестирует ещё £1,5 млрд в британские ИИ ЦОД 9 ч.
Российский специалист по ремонту ПК-оборудования VIK-on выпустил DDR5-тестер для ноутбуков 9 ч.
Garmin выпустила смарт-часы Venu 4 — улучшенные функции, светодиодный фонарик и цена от $550 9 ч.
iPhone 17 Pro обласкали в первых обзорах: «значительное обновление, вызывающее восторг» 10 ч.
СМИ и блогеры протестировали iPhone Air: «ультратонкий смартфон не без компромиссов» 10 ч.
Вышли первые обзоры iPhone 17: «лучший вариант базовой модели за последние годы» 10 ч.