Сегодня 29 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Платформа HPE Supercomputing Programming Software упростит работу с мультивендорными системами ИИ и HPC 3 ч.
Дональд Трамп пригрозил 100-процентными пошлинами тем странам, которые будут облагать цифровые услуги американских компаний налогами 18 ч.
Ограничения на доступ к ИИ-модели Anthropic Fable 5 будут сняты на следующей неделе 19 ч.
Новая статья: The Adventures of Elliot: The Millenium Tales — возвращение старой школы. Рецензия 28-06 00:04
Gemini научился находить приложения в «Play Маркете» по команде в чате 27-06 16:52
Армия из 45 000 пользователей Reddit успешно убедила ИИ-поисковики, что Трамп и Вэнс скончались от бешенства 27-06 13:47
Еврокомиссия взяла на карандаш AWS и Microsoft Azure 27-06 13:17
Путин подписал закон о штрафах за авторизацию через зарубежные сервисы 27-06 10:05
Путин подписал закон о создании базы IMEI всех смартфонов россиян 27-06 09:07
Google согласилась на регулирование ИИ, но на своих условиях 27-06 09:05
Новая статья: Дарвин, Гёдель и ИИ 2 ч.
Китайские x86-процессоры Hygon C86-5G получили 128 ядер с поддержкой 512 потоков 10 ч.
Intel Panther Lake и три порта 2.5GbE: AAEON выпустила индустриальный одноплатный компьютер EPIC-PTH9 10 ч.
Apple и SpaceX получат возможность протестировать технологию Intel 14A этой осенью 18 ч.
Акции компаний технологического сектора в минувшую пятницу снижались в цене по всему миру, но Apple шла против течения 20 ч.
Старая память на новый лад: ASIC Meta Vistara поможет установить DDR4 из б/у серверов в современные системы 27-06 23:27
Amazon инвестирует в ИИ-инфраструктуру Индии ещё $13 млрд 27-06 22:35
Далёкая галактика ворвалась в галактическое скопление и устроила там световое шоу на полнеба 27-06 21:10
Американский регулятор предложил убрать педаль тормоза из роботакси — так безопаснее 27-06 17:49
Commodore удешевит кнопочный смартфон Callback 8020 на $100 с помощью б/у памяти 27-06 16:51