Сегодня 08 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → wikipedia

Базу данных Wikimedia Foundation переведут в вектор — это упростит поиск для людей и ИИ

Одним из важнейших проектов Wikimedia Foundation являются «Викиданные» (Wikidata) — центральная база данных, в которой хранится наиболее важная информация: текст, изображения, ключевые слова и другие сведения. Эти данные представляются как в веб-страницах, так и в формате JSON, который лучше понимают машины. Теперь эту базу дополнят совместимым с искусственным интеллектом векторным форматом.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Векторное представление «Викиданных» упростит обработку информации в базе большими языковыми моделями. Решением задачи занимаются участники программы Wikipedia Embedding Project в немецком подразделении Wikimedia Foundation. В прошлом году берлинская команда при помощи большой языковой модели занялась преобразованием 19 млн структурированных записей «Викиданных» в векторный формат, отражающий контекст и смысл каждого элемента в базе. Запись в векторном формате можно представить как граф с вершинами и линиями связей между ними.

Пользовательский интерфейс онлайн-энциклопедии останется прежним, и в чат-бот «Википедия» не превратится, обещают её создатели, но разработчикам систем ИИ станет проще получить доступ к исходной информации, например, если они захотят создавать свои чат-боты на основе этих данных. Цель проекта — уравнять возможности разработчиков ИИ, не связанных с технологическими гигантами и не обладающих их возможностями, потому что OpenAI и Anthropic и сами располагают ресурсами для векторизации «Викиданных». Участники Wikimedia Foundation также надеются, что облегчённый доступ к этой базе поможет в создании систем ИИ, которые эффективнее излагают информацию по узкоспециализированным темам, не представленным широко в интернете.

Векторная база «Викиданных» будет полезной при создании, например, производных чат-ботов ChatGPT, и пользователям не придётся ждать, когда OpenAI переобучит основной, причём без гарантии, что будет учтён вклад каждого добровольца. На практике векторные представления данных помогают ИИ эффективнее работать не только с необходимой информацией, но и с контекстом, который с ней связан. Векторизация производится при помощи модели Jina AI — источником информации является структурированная база «Викиданных» по состоянию на 18 сентября 2024 года. Услуги бесплатного хранения данных для проекта предоставляет подразделение IBM DataStax. Векторная база будет обновляться, но прежде чем добавить в неё информацию за последний год, участники проекта рассчитывают получить отзывы от разработчиков.

Маску не понравилась Wikipedia за ошибки и предвзятость, и он пообещал запустить «Грокипедию»

Не секрет, что статьи в Wikipedia редактируются с целью манипуляции информацией в пользу тех или иных групп, поэтому идея создания аналогичного ресурса с более подходящими Илону Маску (Elon Musk) принципами наполнения возникла вполне ожидаемо. Миллиардер собирается создать всемирную «энциклопедию», использующую возможности чат-бота Grok принадлежащей ему компании xAI.

 Источник изображения: Unsplash, Мария Шалабаева

Источник изображения: Unsplash, Мария Шалабаева

Ранее Илон Маск уже выражал недовольство тем, как на страницах Wikipedia излагаются некоторые факты его собственной биографии, а также другая информация. Выступая в ходе очередного подкаста, Маск признался, что его стартап xAI разрабатывает программный инструмент для чат-бота Grok, который будет автоматически выявлять неточности в излагаемой онлайн-источниками информации и переделывать их в соответствии с собственными представлениями о достоверности соответствующих данных.

Со временем подобные «синтетические корректировки» лягут в основу новой онлайн-базы данных, которую миллиардер предварительно именует Grokipedia. По замыслу Маска, контент этого конкурента Wikipedia должен быть лишён политических искажений фактов и событий, а также разного рода «идеологического мусора». Чат-бот Grok сейчас имеет возможность, по словам основателя xAI, анализировать получаемую им из онлайн-источников информацию с целью поиска серьёзных несоответствий. «Wikipedia предлагает много великолепного контента, но он не лишён ошибок и предвзятостей. Grok способен всё это почистить», — пояснил Илон Маск.

Ещё в 2022 году Маск привлёк внимание к достоверности предлагаемой Wikipedia информации, когда страница с описанием термина «рецессия» подверглась 180 исправлениям за одну неделю. Годом позднее он вступил в спор с основателем ресурса Джимми Уэйлсом (Jimmy Wales) относительно нейтральности и прозрачности Wikipedia. Немало претензий у Маска возникло и к описанию своей собственной биографии на страницах этого ресурса. Например, он призывал не называть его инвестором, а сделать упор именно на руководящих постах, которые он занимает в различных компаниях. В любом случае, даже при наличии подобных претензий страница Wikipedia, посвящённая Илону Маску, продолжает демонстрировать статус «хорошая публикация», хотя его удостаиваются не более 1 % записей этого информационного ресурса.

Сама Wikipedia в этом году столкнулась с противодействием со стороны редакторов, когда попробовала создавать энциклопедические статьи с использованием искусственного интеллекта. Эксперименты в этой сфере пришлось прекратить из-за опасений по поводу возможных репутационных издержек.

Идея Маска о создании наполняемой ИИ всемирной энциклопедии тоже не лишена недостатков. Эксперты утверждают, что ИИ способен вносить искажения и ошибки в перерабатываемую информацию, а ещё он пока с трудом даёт адекватные ответы на некоторые типы сложных вопросов. Чрезмерное увлечение автоматизацией цензуры в данном случае может подорвать доверие читателей к подобным ресурсам.

«Википедия» перестала показывать ИИ-сводки из-за недовольства редакторов

Администрация Wikipedia прекратила в тестовом режиме показывать подготовленные искусственным интеллектом сводки статей — они вызвали резкую критику со стороны редакторов на платформе, передаёт 404 Media.

 Источник изображения: Luke Chesser / unsplash.com

Источник изображения: Luke Chesser / unsplash.com

Тестирование ИИ-сводок началось 2 июня. Пользователи, которые установили браузерное расширение Wikipedia, стали над каждой статьёй видеть «простые сводки» — они сопровождались жёлтой пометкой «непроверено», и чтобы прочитать этот фрагмент, пользователю приходилось его разворачивать. Сводки создавались при помощи модели с открытыми весами Aya от Cohere Labs. Предполагалось, что это будет двухнедельная программа тестирования для небольшой группы читателей (10 %), которые дали на это согласие. Но из-за негативной реакции редакторов руководство управляющей платформой НКО Wikimedia Foundation приостановило тестирование уже на второй день.

Основные претензии касались точности и достоверности материалов в исполнении ИИ. «Это нанесёт немедленный и непоправимый вред нашим читателям и нашей репутации как достоверного и серьёзного источника. Давайте не будем оскорблять интеллект наших читателей и предаваться панике с выпуском показушных ИИ-сводок», — заявил один из редакторов. «С [функцией] Simple Article Summaries вы предлагаете дать единственному редактору, чья надёжность известна, и у кого проблемы с объективностью, платформу в верхней части любой статьи, не давая никакого редакционного контроля другим», — предупредил другой.

ИИ-сводки — функция, печально известная тем, что предоставляет неточные данные. В январе Apple была вынуждена приостановить их показ, когда стали генерироваться не соответствующие действительности новости. Более трёх десятков таких сводок было вынуждено отправить на редактирование агентство Bloomberg — и снова из-за неточностей. «Википедия» приостановила показ ИИ-сводок, но не их разработку. Платформа продолжит их тестировать с разными группами пользователей, а за редакторами останется последнее слово в принятии решений, какая информация будет отображаться на платформе, заявил 404 Media представитель её администрации.

Дело техники: «Википедия» поручит генеративному ИИ рутину, чтобы не испортить труд людей

«Википедия» объявила о новой стратегии использования искусственного интеллекта в своей интернет-энциклопедии, но с важной оговоркой — ИИ не заменит живых редакторов. Вместо этого он станет их помощником в рутинных задачах.

 Источник изображения: wikipedia.org, AI

Источник изображения: wikipedia.org, AI

«Википедия» не планирует заменять своих редакторов и волонтёров искусственным интеллектом, несмотря на растущую популярность ИИ-технологий. Вместо этого платформа будет использовать нейросети для устранения технических барьеров, чтобы участники могли сосредоточиться на содержании, а не на сложностях реализации, сообщает TechCrunch, ссылаясь на официальное заявление организации.

В отличие от многих компаний, которые рассматривают ИИ как угрозу рабочим местам, «Википедия» видит в нём инструмент для автоматизации рутинных задач. Например, нейросети помогут в переводе, модерации и поиске информации, освобождая время редакторов для обсуждений и проверки данных, что особенно важно, поскольку «Википедия» строится на консенсусе среди её участников.

«Мы уверены, что успех нашей работы с ИИ зависит не только от того, что мы делаем, но и от того, как мы это делаем», — написал Крис Албон (Chris Albon), директор по машинному обучению «Фонда Викимедиа» (Wikimedia Foundation). По его словам, «Википедия» будет придерживаться принципов прозрачности, открытого кода и защиты прав человека, чтобы ИИ оставался под контролем людей.

Албон подчеркнул, что с появлением генеративного ИИ, который иногда допускает ошибки и «галлюцинирует», роль «Википедии» как достоверного источника знаний ещё больше возросла. «Мы будем использовать ИИ взвешенно, сохраняя многоязычность и человекоориентированный подход», — добавил он.

Прокуратура США усомнилась в праве «Википедии» на налоговые льготы из-за иностранного вмешательства

Временный прокурор округа Колумбия Эд Мартин (Ed Martin) обвинил «Википедию» в нарушении законодательства США и пригрозил пересмотром её статуса некоммерческой организации. Скандал разгорелся вокруг обвинений в искажении исторических фактов и вмешательстве иностранных агентов.

 Источник изображений: The Wikimedia Foundation

Источник изображений: The Wikimedia Foundation

Стало известно, что исполняющий обязанности федерального прокурора округа Колумбия Эд Мартин (Ed Martin) направил официальное письмо в «Фонд Викимедиа» (Wikimedia Foundation), управляющий «Википедией». Письмо, копия которого оказалась в распоряжении издания The Free Press, ставит под сомнение соблюдение Фондом критериев для сохранения статуса некоммерческой организации в соответствии с разделом 501(c)(3) Налогового кодекса США. Мартин утверждает, что «Википедия» якобы позволяет иностранным агентам целенаправленно редактировать страницы, искажая исторические факты и распространяя пропаганду, что, по его мнению, создаёт угрозу национальной безопасности США.

Американское законодательство требует, чтобы организации, освобождённые от уплаты налогов, действовали исключительно в религиозных, благотворительных, научных или образовательных целях, а также в целях общественной безопасности. В письме Мартин подчёркивает, что деятельность «Википедии», связанная с манипуляцией историческими фактами и распространением дезинформации, может нарушать эти обязательства, что ставит под сомнение её право на налоговые привилегии.

В последние недели Эд Мартин направил обвинительные письма в несколько известных научных журналов: New England Journal of Medicine, CHEST Journal и Obstetrics and Gynecology. В этих письмах он утверждает, что редакции этих изданий проявляют политическую предвзятость в научных дискуссиях. Мартин уже давно известен своей практикой подачи плохо обоснованных юридических претензий против СМИ, часто сопровождаемых спорными и трудно доказываемыми обвинениями.

 Источник изображений: The Wikimedia Foundation

В своём письме к «Фонду Викимедиа» Мартин требует разъяснений по нескольким пунктам: какие меры организация принимает для защиты общественности от пропаганды, какие шаги предпринимаются для исключения целенаправленных правок информации иностранными агентами, а также каким образом предотвращается искажение или переписывание исторических фактов. Ответ на это официальное обращение должен поступить в прокуратуру округа Колумбия не позднее 15 мая.

В ответ на обвинения заместитель главного юрисконсульта «Фонда Викимедиа» Джейкоб Роджерс (Jacob Rogers) сообщил, что содержание «Википедии» регулируется тремя основными принципами: нейтральности изложения, обязательной проверяемости фактов и строгого запрета на размещение оригинальных исследований. Роджерс подчеркнул, что процесс создания и редактирования материалов осуществляется почти 260 тысячами добровольцев по всему миру. Также он подчеркнул, что Фонд приветствует возможность объяснить общественности, как работает Википедия, и готов сделать это в надлежащем правовом формате.

Давление на «Википедию» со стороны правых сил усиливается. В 2024 году Илон Маск (Elon Musk) публично призвал своих сторонников прекратить пожертвования в адрес «Вокепедии» — так он саркастически назвал Википедию, намекая на её предполагаемую политическую ангажированность. Позже он охарактеризовал сайт как «продолжение пропаганды традиционных СМИ». В январе 2025 года издание Forward.com сообщило, что Фонд Наследия (The Heritage Foundation) подготовил презентацию, ориентированную на целенаправленное воздействие на редакторов «Википедии» и подрыв их редакционной независимости.

«Фонд Викимедиа» с тех пор разработал инструменты для защиты анонимности своих редакторов. Генеральный директор Фонда Мариана Искандер (Maryana Iskander) в марте этого года заявила, что организация фиксирует рост угроз со стороны государств и частных структур по всему миру. Об этом она сообщила в интервью для 404 Media, подчеркнув увеличение числа попыток регулирования деятельности платформы, а также угроз судебными исками против редакторов и администраторов «Википедии».

«Википедию» скрестили с TikTok — запущен проект WikiTok с бесконечной лентой познавательных статей

Разработчик Исаак Джемаль (Isaac Gemal) представил открытый проект WikiTok. Ресурс выполнен в стиле TikTok, но с одним ключевым отличием — он предлагает пользователям листать ленту из случайных статей Wikipedia, узнавая что-то новое. Исходный код сервиса написан на TypeScript и доступен на GitHub под лицензией MIT, а демо-версия проекта размещена по адресу wikitok.vercel.app.

 Источник изображения: wikitok.vercel.app

Источник изображения: wikitok.vercel.app

«Я создал это по наитию, увидев, как кто-то попросил об этом в Twitter. Было полпервого ночи, но я не мог упустить возможность реализовать эту идею. Код очень простой, на самом деле, бэкэнда вообще нет. Я полагаю, что API Wikipedia очень разрешительный, и запросы можно отправлять напрямую с фронтэнда. Так что вы просто запрашиваете случайные статьи, получаете несколько фрагментов и прикрепляете изображения», — рассказал Джемаль.

Что касается самого проекта WikiTok, то при взаимодействии с ним пользователям предлагается прокручивать вертикальную ленту случайных статей Wikipedia. В процессе прокрутки доступен предварительный просмотр статей с изображениями, заголовками и отрывками. При необходимости пользователь может сразу же поделиться понравившейся статьёй. Для обеспечения плавной прокрутки изображения и контент загружаются заранее.

Ресурс имеет адаптивный дизайн, благодаря чему им удобно пользоваться как на ПК, так и на смартфонах. Также он поддерживает 14 языков, включая русский, английский, немецкий, китайский и другие.

«Википедию» заполонили белиберда и фейки, сгенерированные ИИ

Wikipedia переживает кризис из-за того, что пользователи массово стали публиковать бессмысленную или непроверенную информацию, сгенерированную искусственным интеллектом с помощью чат-ботов, таких как ChatGPT и ему подобных. Однако, учитывая растущую популярность ИИ-технологий, этого можно было ожидать.

 Источник изображения: BoliviaInteligente/Unsplash

Источник изображения: BoliviaInteligente/Unsplash

Как сообщает TechSpot, для решения проблемы был создан проект под названием WikiProject AI Cleanup, представляющий из себя группу добровольцев, которая занимается поиском, редактированием и удалением ложной информации, предположительно добавленной с помощью генеративного ИИ.

Ильяс Леблю (Ilyas Lebleu), один из основателей команды по «очистке», сообщил, что о проблеме стало известно, когда редакторы и пользователи Wikipedia заметили отрывки статей, явно написанные чат-ботом. Подозрения подтвердились, когда некоторые из этих текстов удалось воссоздать с помощью ChatGPT.

«Мы обратили внимание на необычный стиль письма, который был явно написан не человеком, мы смогли воспроизвести эти фразы с помощью ChatGPT, — сказал Леблю. — Обнаружив характерные обороты и выражения, мы идентифицировали наиболее вопиющие примеры сгенерированных статей. После этого и было решено организовать проект по поиску ИИ-текста».

Один из примеров — статья о якобы существующей османской крепости под названием «Амберлисихар», построенной в 1400-х годах. В тексте объёмом около 2000 слов подробно описывалось местоположение и строительство этого объекта. Однако крепость на самом деле не существует, и вся информация о ней была полностью вымышленной, но выглядела убедительно благодаря вкраплениям реальных фактов. При этом проблема касается не только новых статей на Wikipedia. Недобросовестные пользователи вставляют ложные данные в уже существующие статьи. В одном из случаев в статью о жуке добавили раздел, посвящённый виду крабов, причём с правильными ссылками на источники.

Леблю и его коллеги признают, что до конца не понимают, почему люди это делают. Однако причины очевидны. Во-первых, это проблема самой системы Wikipedia, которая позволяет каждому стать редактором. Кстати, именно по этой причине многие университеты запрещают студентам использовать Wikipedia в качестве основного источника информации.

Во-вторых не секрет, что интернет часто становится объектом злоупотреблений, особенно сейчас, когда появился искусственный интеллект. В качестве примера может послужить печально известный бот Microsoft по имени Tay, который был отключён менее чем через 24 часа после запуска за публикацию оскорбительных и расистских твитов в X. Также ИИ используется для создания дипфейков и книг на Amazon Kindle.


window-new
Soft
Hard
Тренды 🔥
В Steam открылось тестирование Valor Mortis от разработчиков Ghostrunner — ролевого боевика от первого лица в духе Dark Souls и BioShock 58 мин.
Самое большое дополнение в истории Crusader Kings 3 не заставит себя долго ждать — дата выхода и новый трейлер All Under Heaven 3 ч.
Изгнанные Маском без выходного пособия топ-менеджеры Twitter добились «справедливости» через суд 3 ч.
Ninja Gaiden 4, Baldur’s Gate, новая игра от создателей Psychonauts и многое другое: Microsoft раскрыла первые новинки Game Pass после подорожания 4 ч.
«Билайн Big Data & AI» и IVA Technologies займутся совместной разработкой ИИ-продуктов 4 ч.
«Интернет — не свалка для негатива»: в китайских соцсетях массово банят пессимистов 4 ч.
Еврокомиссия выделит €1 млрд на внедрение ИИ в десяти отраслях 5 ч.
Демоны, титаны и невообразимые ужасы: новый геймплейный трейлер Painkiller показал, почему в чистилище веселее с друзьями 5 ч.
Российский рынок IaaS и PaaS отметился 30-проценным ростом с начала года 7 ч.
Beeline Cloud представил комплексное решение для работы с «1С» в защищённом облаке 8 ч.
Нобелевскую премию по химии за 2025 года присудили за открытие «домика для молекул» 3 ч.
Synology отменила запрет на жёсткие диски WD и Seagate в своих новых NAS 3 ч.
Sennheiser представила наушники HDB 630 — «первый беспроводной продукт для аудиофилов» 4 ч.
AOC представила 27- и 32-дюймовые игровые мониторы на Fast IPS с разрешением до 4K и частотой до 320 Гц 5 ч.
Дженсен Хуанг «удивился» условиям сделки между AMD и OpenAI, но назвал её «хитрым ходом» 5 ч.
Сатья Наделла, Дженсен Хуанг и Майкл Делл спасли нового главу Intel от быстрой отставки 5 ч.
Google намерена построить до шести ЦОД рядом с остановленной АЭС DAEC в Айове, которую хотят перезапустить 5 ч.
Струйно-перовскитные технологии Ricoh снимут Японию с иглы зависимости от китайских солнечных панелей 5 ч.
Samsung получит шанс взять реванш над SK hynix благодаря сделке OpenAI и AMD 5 ч.
Китайские поставщики кремниевых пластин скоро начнут вытеснять мировых лидеров 6 ч.