Сегодня 18 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Windows 11 получила полноценную поддержку MIDI 2.0 15 мин.
Суд запретил OpenAI использовать бренд Cameo 3 ч.
VK неделю назад объявила о закрытии «заменителя Telegram» TamTam, но это заметили лишь сейчас 3 ч.
Реестр российского ПО разросся до 30 тысяч продуктов — на это ушло 10 лет 3 ч.
Google мельком показала интерфейс AR-очков с Android XR и объяснила принципы, которыми руководствуется в разработке 3 ч.
Ветеран CDPR назвал эпилог The Witcher ошибкой — из-за него The Witcher 2 пришлось делать игрой «про ведьмаков, которые почему-то убивают королей» 4 ч.
Bethesda наконец починила The Elder Scrolls V: Skyrim на Nintendo Switch 2 — легендарная RPG получила поддержку 60 кадров/с и не только 5 ч.
Perplexity первой встроила рекламу в ИИ, но теперь отказалась от неё из-за угрозы доверию пользователей 5 ч.
Microsoft показала, чего ждать от следующих обновлений Windows 11 — измеритель скорости интернета, новые настройки и эмодзи 5 ч.
Google сделает ссылки в ИИ-поиске заметнее на фоне жалоб издателей 6 ч.
Инженер создал 10-граммовую робо-птицу, которая разгоняется до 31 км/ч и управляется со смартфона 2 ч.
ПК-версию Cyberpunk 2077 запустили на Android — RedMagic 11 Pro справился на 30–40 FPS 2 ч.
Китайский конкурент Neuralink сообщил о первых успехах — пациент с имплантом научился управлять курсором за 5 дней 2 ч.
Wavepiston построит на Барбадосе волновую электростанцию на 50 МВт, каких мир ещё не видел 2 ч.
Новый дата‑центр «Мегафона» начал работу в Хабаровском крае 2 ч.
Авиадвигатели сработали: ЦОД получили реактивный импульс благодаря переделке б/у турбин 3 ч.
Британский бизнес обеспокоен грядущим запретом VPN 3 ч.
Бум ИИ разогнал станкостроителей: прибыль поставщиков чипового оборудования растёт восьмой квартал подряд 5 ч.
Технология древних на новых лад: учёные научились записывать 2 Тбайт данных на лист керамики формата A4 5 ч.
Adani вложит $100 млрд в создание 5 ГВт «зелёных» ИИ ЦОД в Индии 6 ч.