ИИ заполоняет интернет: 35 % появившихся за последние годы сайтов были созданы нейросетями

Группа исследователей, в которую входят учёные и энтузиасты проекта «Архив интернета», опубликовала свои выводы в статье под названием «Влияние текста, сгенерированного ИИ, на интернет». По их данным, начиная с 2022 года более трети всех сайтов создано с помощью ИИ. Исследование также показало, что контент, сгенерированный ИИ, делает интернет более позитивным и менее разнообразным.

Источник изображений: unsplash.com

Вдохновлённые теорией «мёртвого интернета» — идеей о том, что большая часть интернета теперь состоит из ботов, обменивающихся сообщениями, — команда исследователей обратилась в «Архив интернета», чтобы получить образцы сайтов за 33 месяца с августа 2022 года по май 2025 года. Проект «Архив интернета» (Internet Archive) — это некоммерческая организация, которая, как и следует из названия, занимается сохранением цифрового контента Сети для будущих поколений.

«Для каждого выбранного URL-адреса мы получаем самый старый доступный архивный снимок через API сервера CDX Wayback Machine, — говорится в исследовании. — Исходный HTML-код каждого снимка загружается и сохраняется локально для последующей обработки». Исследователи использовали программное обеспечение для обнаружения ИИ Pangram v3, которое, по их данным, оказалось самым точным инструментом для определения контента, созданного нейросетью.

«Опасения вызывают распространение в интернете текста, сгенерированного и обработанного с помощью ИИ, что может привести к ухудшению семантического и стилистического разнообразия, фактической точности и другим негативным последствиям, — пишут исследователи. — Мы обнаружили, что к середине 2025 года примерно 35 % вновь опубликованных сайтов были классифицированы как сгенерированные или обработанные с помощью ИИ, по сравнению с нулевым показателем до запуска ChatGPT в конце 2022 года».

«Я считаю невероятную скорость захвата интернета искусственным интеллектом просто поразительной, — заявил соавтор статьи Йонаш Долежал (Jonáš Doležal). — После десятилетий, в течение которых люди формировали интернет, значительная его часть всего за три года стала определяться искусственным интеллектом. На мой взгляд, мы являемся свидетелями масштабной трансформации цифрового ландшафта за гораздо меньшее время, чем потребовалось для его создания изначально».

Исследователи проверили шесть распространённых критических замечаний в адрес текста, сгенерированного ИИ:

Приводит ли это к сужению круга мнений?
Создаёт ли это больше дезинформации по мере распространения галлюцинаций?
Становится ли онлайн-текст более «стерильным» и жизнерадостным?
Сложно ли указывать источники?
Создаёт ли он последовательности слов с низкой семантической плотностью?
Приводит ли он к монокультуре и единообразию в написании текстов?

«Для каждой гипотезы мы определяем измеримый сигнал, вычисляем его для каждой ежемесячной выборки сайтов и проверяем, коррелирует ли он с совокупным показателем вероятности ИИ за месяцы», — пояснили учёные. Например, чтобы проверить, заполняет ли ИИ интернет ложной информацией, команда извлекла основанные на фактах утверждения с выбранных ими сайтов, а затем проверила их достоверность. Чтобы выяснить, ссылается ли ИИ на источники, команда вычисляла плотность исходящих ссылок в тексте, сгенерированном ИИ.

К удивлению исследователей, только две из шести проверенных ими теорий о влиянии текста, сгенерированного ИИ, оказались верными. ИИ делал интернет менее семантически разнообразным и в целом более позитивным, но он не вызывал распространения лжи и не устранял её источники.

«Самым удивительным результатом стало то, что наша гипотеза о распаде истины не подтвердилась, — отметил Долежал. — Мы целенаправленно искали увеличение количества заведомо ложных утверждений, но не обнаружили. Но всё же возможно, что ИИ незаметно увеличивает объём утверждений, которые нельзя проверить с помощью существующих инструментов и инфраструктуры проверки фактов. Или же интернет изначально не был особенно склонен к соблюдению истины».

Исследователи заявили, что продолжат изучать влияние ИИ-контента на интернет. В настоящее время они создают «непрерывный инструмент», который будет непрерывно анализировать ситуацию, а не создавать статичный «снимок» ресурсов Сети. Учёные планируют выяснить, какие типы сайтов сильнее всего наполнены нейросетевым контентом, с разбивкой по категориям и языкам, а также оценить, где наиболее ярко проявляются последствия применения ИИ.

Для Долежала подобные исследования имеют решающее значение для обеспечения полезного и продуктивного интернета. «По мере распространения контента, созданного с помощью ИИ, задача состоит в том, чтобы найти применение этим моделям, которое не приведёт просто к созданию очищенного, повторяющегося контента, — считает он. — Скорее, вместо того чтобы заставлять модели быть идеально покладистыми и уступчивыми, стоит предоставить им больше индивидуальности или конфликтности, что может помочь им выступать в качестве творческого партнёра, а не замены человеческого голоса».