Сегодня 17 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В ИИ по паспорту: для доступа к некоторым функциям Anthropic Claude потребуется подтвердить личность 27 мин.
Точки доступа Cisco каждый день захламляют сами себя 5 Мбайт неудаляемых данных 3 ч.
Devil May Fly: игроков заворожил геймплейный трейлер авиационного роглайка Delivery Must Complete с элементами Devil May Cry и Ace Combat 3 ч.
Европол попросил 75 000 человек прекратить DDoS-атаки 3 ч.
Mozilla анонсировала Thunderbolt — открытая платформа для запуска ИИ на локальных системах 4 ч.
OpenAI представила ИИ-модель GPT-Rosalind для учёных-биологов 4 ч.
Взрывной олдскульный боевик Huntdown: Overtime с привкусом VHS не заставит себя долго ждать — новый трейлер и дата выхода в раннем доступе Steam 4 ч.
Конференция OS DAY 2026 «Встроенные операционные системы, реальное время» 5 ч.
Warhammer 40,000: Space Marine 2 превзошла «даже самые смелые мечты» издателя — на защиту Империума встали 12 миллионов космодесантников 6 ч.
МТС Exolve: как ставка на self-service за год изменила рынок коммуникаций для бизнеса 6 ч.
Dreame представила в России передовые роботы-пылесосы и другие новинки 36 мин.
Tesla Cybertruck продаётся хуже ожиданий: 19 % машин за квартал Маск купил сам у себя 38 мин.
Электролёт Vertical Aerospace первым в мире совершил ключевой манёвр двигателями под надзором регулятора 53 мин.
Tesla пригрозила штрафом в $50 000 перекупщикам Model S и Model X прощальной серии 57 мин.
IonQ разработала фотонный интерконнект для объединения квантовых компьютеров 2 ч.
Поставки iPhone в Китае в первом квартале взлетели на 20 %, хотя рынок просел на 4 % 3 ч.
Добычу полезных ископаемых на астероидах можно доверить микробам — больше всего им понравились драгметаллы 3 ч.
«Инкаб» начала в Прикамье выпуск компонентов для подводных волоконно-оптических кабелей 3 ч.
SoftBank выпустит облигации на сумму $3,6 млрд, чтобы отдать деньги OpenAI 3 ч.
Несмотря на конфликт, Белый дом ведёт переговоры с Anthropic о доступе к мощному ИИ Claude Mythos 3 ч.