Сегодня 31 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

 Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Meta может начать использовать ИИ-модели Google и OpenAI в своих приложениях 12 ч.
Белый дом приказал вернуть ИИ-бота xAI Grok «как можно скорее» 14 ч.
Новая статья: Is This Seat Taken? — все когда-нибудь сядут. Рецензия 23 ч.
Meta без спроса заполонила свои соцсети ИИ-двойниками Тейлор Свифт, Скарлетт Йоханссон и других знаменитостей 30-08 17:59
Стартап Илона Маска обвинил бывшего сотрудника в краже секретов для OpenAI 30-08 14:19
xAI Илона Маска представила ИИ для программирования, который отвечает мгновенно 30-08 14:04
Тестирование крупного обновления Windows 11 25H2 вышло на финишный этап 30-08 11:45
ЕС всё же оштрафует Google за антиконкурентное поведение, но наказание будет скромным 30-08 10:43
Meta исправила методику обучения ИИ после скандала с неуместными разговорами с подростками 30-08 10:23
Кровавый геймплейный трейлер раскрыл дату выхода Bloodthief — ураганного слешера про ненасытного вампира 30-08 00:16
Суперинтеллект против утилитарности: США и Китай выбрали разную стратегию в гонке ИИ, и кто победит, неясно 6 ч.
Alibaba разработала собственный ИИ-ускоритель для инференса 7 ч.
Очередная конференция Nvidia GTC пройдёт с 16 по 19 марта 2026 года 11 ч.
Samsung анонсировала 37-дюймовый монитор ViewFinity S8 с поддержкой 4K, USB Type-C на 90 Вт и встроенным KVM-переключателем 12 ч.
SK hynix серьёзно приблизилась к Samsung по величине выручки на рынке NAND во втором квартале 14 ч.
Samsung готова усилить собственные разработки ИИ-моделями с открытым исходным кодом 14 ч.
Samsung добавила ИИ-помощника Microsoft Copilot в свои новые телевизоры 15 ч.
Доля электромобилей на рынке Китая достигла 31 %, а с учётом гибридов перевалила за 50 % 15 ч.
В блистающих останках умирающей звезды «Джеймс Уэбб» увидел, как могла зарождаться Земля 30-08 20:52
MaxSun представила компактную материнскую плату с разъёмом PCIe x16 для видеокарт на изнанке 30-08 18:04