Сегодня 10 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Nvidia подтвердила утечку данных пользователей GeForce Now через армянские сервера 2 мин.
Ветеран Epic Games взялся за европейскую альтернативу Unreal Engine 4 ч.
Google привязала reCAPTCHA к Play Services и отрезала от верификации пользователей Android без сервисов Google 6 ч.
Новая статья: Heroes of Might and Magic: Olden Era — время расцвета. Предварительный обзор 18 ч.
Anthropic отучила свой ИИ шантажировать пользователей при угрозе отключения 24 ч.
Microsoft улучшила работу Windows 11 с тачпадом и сенсорной клавиатурой, а также повысила стабильность «Проводника» 09-05 17:28
Пользователей Instagram лишили сквозного шифрования в личных сообщениях 09-05 16:51
ИИ всё чаще пишет научные статьи — отличить от человеческих становится невозможно, и это пугает 09-05 14:43
ИИ-модель OpenAI GPT-5.5 оказалась в 1,5–2 раза дороже предшественницы 09-05 14:38
В ЕС назвали VPN лазейкой для обмана систем проверки возраста — и её хотят закрыть 09-05 11:57
Рождение новой SpaceX? Инвесторы с Reddit разогнали акции спутниковой компании AST SpaceMobile на 6000 % 2 ч.
MaxSun выпустила новые MoDT-платы с распаянными Raptor Lake серии Core 200H 4 ч.
Samsung расширила группу по созданию человекоподобных роботов и ускорила ИИ-трансформацию 8 ч.
Nvidia в этом году потратила на покупку активов других компаний более $40 млрд 10 ч.
Запрещённые к ввозу в США дроны и маршрутизаторы смогут получать обновления безопасности до января 2029 года 17 ч.
Под руководством Лип-Бу Тана компания Intel так и не избавилась от основных проблем 17 ч.
Война на Ближнем Востоке усугубила дефицит строительных материалов и компонентов для ЦОД 19 ч.
Учёные предложили квантовый процессор с подвижными кубитами — он прост в производстве и гибок в работе 20 ч.
Разработчик технологии квантовых точек для телевизоров показал недостатки панелей RGB LED 24 ч.
В США расследуют аварии с участием роботакси Avride, ранее входившей в «Яндекс» 09-05 16:53