Сегодня 11 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ пересказал «Гарри Поттера» и другие книги почти дословно — миф о добросовестном использовании под вопросом

Большие языковые модели (LLM) от ведущих представителей индустрии могут по запросу сгенерировать почти дословные копии книжных бестселлеров. Это даёт повод задать новые вопросы разработчикам, которые не раз утверждали, что их алгоритмы не хранят защищённые авторским правом произведения.

 Источник изображения: AI

Источник изображения: AI

Проведённые недавно исследования показали, что ИИ-модели OpenAI, Google, Meta, Anthropic и xAI запоминают гораздо больше обучающих данных, чем было принято считать. По данным экспертов в сфере ИИ и права, способность к запоминанию может иметь серьёзные последствия для разработчиков. Это связано с тем, что компании могут столкнуться с десятками судебных исков по всему миру, поскольку фактически подрывается утверждение о том, что LLM обучаются на защищённых авторским правом произведениях, но не хранят их копии.

«Появляется всё больше доказательств того, что запоминание — более серьёзная проблема, чем считалось прежде», — прокомментировал данный вопрос Ив-Александр де Монжуа (Yves-Alexandre de Montjoye), профессор прикладной математики и компьютерных наук Имперского колледжа Лондона.

ИИ-разработчики давно заявляют, что их алгоритмы не склонны к запоминанию. В письме в Бюро регистрации авторских прав США компания Google в 2023 году заявляла, что «в самой модели не содержится копий обучающих данных — будь то текст, изображения или другие форматы». ИИ-компании также утверждали, что обучение моделей на защищённых авторским правом книгах является «добросовестным использованием», аргументируя это тем, что алгоритмы преобразуют оригинальные произведения во что-то принципиально новое.

В прошлом месяце исследователи из Стэнфордского и Йельского университетов провели эксперимент, в рамках которого им удалось сформировать запросы к алгоритмам OpenAI, Google, Anthropic и xAI для генерации ИИ-моделями тысяч слов из 13 произведений, таких как «Игра престолов», «Голодные игры» и «Хоббит». При выполнении задания на завершение предложений из книги алгоритм Gemini 2.5 воспроизвёл 76,8 % текста книги «Гарри Поттер и философский камень» с высокой точностью, тогда как Grok 3 сгенерировал 70,3 % текста. Исследователям также удалось извлечь почти весь текст произведения «практически дословно» из Claude 3.7 Sonnet компании Anthropic, используя запросы, вынуждавшие алгоритм игнорировать механизмы защиты.

Эти данные дополняют прошлогоднее исследование, показавшее, что «открытые» модели, такие как Llama от Meta, запоминают большие части некоторых книг, использованных в процессе обучения. Ранее эксперты не были уверены, будут ли закрытые модели, которые обычно имеют больше средств защиты от генерации нежелательного контента, подвержены запоминанию произведений, на которых обучались.

Исследователи ещё не выяснили, почему ИИ-модели запоминают то, что присутствует в их обучающих данных. Также остаётся неясным, какая часть обучающих данных может проявляться в генерируемых ИИ ответах на запросы. Способность к запоминанию может иметь серьёзные последствия и в других сегментах, таких как здравоохранение и образование, где утечка любых обучающих данных способна привести к проблемам конфиденциальности и приватности.

Эксперты в области права считают, что способность ИИ-моделей к запоминанию потенциально может создать разработчикам проблемы из-за нарушения авторских прав. Это также может отразиться на том, как происходит обучение алгоритмов и сколько это стоит. «Результаты исследования могут создать проблему для тех, кто утверждает, что ИИ-модель не хранит и не воспроизводит какие-либо защищаемые авторским правом произведения», — уверена Серис Вин Дэвис (Cerys Wyn Davies), партнёр по интеллектуальной собственности юридической фирмы Pinsent Masons.

То, запоминают ИИ-модели свои обучающие данные или нет, уже сыграло важную роль в недавних судебных разбирательствах по поводу нарушения авторских прав. В прошлом году американский суд постановил, что обучение ИИ-моделей Anthropic на некоторых защищённых авторским правом произведениях считается «добросовестным использованием», поскольку суд признал, что алгоритм преобразует исходные данные при генерации ответов, а не повторяет их. При этом суд постановил, что хранение пиратских копий произведений «непоправимо нарушает авторские права», что позднее вынудило компанию выплатить $1,5 млрд для урегулирования иска.

В ноябре прошлого года немецкий суд постановил, что OpenAI нарушила авторские права, поскольку ИИ-модели компании запоминали тексты песен. Иск местной ассоциации, представляющей интересы композиторов, поэтов и издателей, был назван знаковым для Евросоюза.

Anthropic, комментируя данные последнего исследования, заявила, что используемый метод взлома ИИ-модели не применяется обычными пользователями. В компании добавили, что ИИ-модели не хранят копии конкретных наборов данных, а учатся на закономерностях и взаимосвязях между словами и строками в обучающих данных. xAI, OpenAI и Google пока никак не комментировали данный вопрос.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Meta не смогла отвертеться от очередного иска по поводу зависимости подростков от социальных сетей 2 ч.
Microsoft упростила структуру Windows Insider — меньше каналов и переключение между ними без необходимости чистой установки 3 ч.
Новая статья: NUTMEG! A Nostalgic Deckbuilding Football Manager — когда футбол был настоящим. Рецензия 8 ч.
Инсайдеры: спустя семь лет после Metro Exodus новая Metro наконец готова к анонсу 10 ч.
Исследователи c помощью ИИ превратили обычные умные часы в систему точного отслеживания движений руки 11 ч.
Страница Rust 2 появилась в Steam, но разработчики тут ни при чём 14 ч.
Microsoft заверила, что исправила все ошибки Windows 11 25H2 — по крайней мере известные 15 ч.
Google внедрила сквозное шифрование в Gmail на Android и iOS, но не для всех 15 ч.
После года жалоб игроков разработчики Dune: Awakening всё-таки сделают PvP полностью опциональным 15 ч.
Утилиты CPU-Z и HWMonitor подменили вредоносами на официальном сайте — разработчики уже всё исправили 17 ч.
Лунная миссия Artemis II подошла к концу — корабль Orion с астронавтами вернулся на Землю 6 мин.
Tesla начала борьбу с «обманками», позволяющими активировать автопилот в странах, где он официально не предлагается 19 мин.
За первые пять лет ИИ-бума спрос на память вырастет в 625 раз, как считает глава Dell 54 мин.
В США арестован подозреваемый в попытке поджога дома главы OpenAI Сэма Альтмана 2 ч.
Учёные предложили неожиданный способ регистрации гравитационных волн — такой простой, что даже не верится 2 ч.
Qualcomm не уверена в способности Samsung выпускать для неё 2-нм чипы с нужным качеством 2 ч.
Intel поставит Google несколько поколений Xeon и IPU 9 ч.
Big Battlemage наконец предстал на фото: в Сети показали разборку видеокарты Intel Arc Pro B70 14 ч.
«Удачи вам в ваших сборках!»: EK Water Blocks подняла цены на компоненты для систем жидкостного охлаждения 14 ч.
На падающем рынке смартфонов Apple нарастила поставки iPhone и выбилась в лидеры 14 ч.