Сегодня 24 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ пересказал «Гарри Поттера» и другие книги почти дословно — миф о добросовестном использовании под вопросом

Большие языковые модели (LLM) от ведущих представителей индустрии могут по запросу сгенерировать почти дословные копии книжных бестселлеров. Это даёт повод задать новые вопросы разработчикам, которые не раз утверждали, что их алгоритмы не хранят защищённые авторским правом произведения.

 Источник изображения: AI

Источник изображения: AI

Проведённые недавно исследования показали, что ИИ-модели OpenAI, Google, Meta, Anthropic и xAI запоминают гораздо больше обучающих данных, чем было принято считать. По данным экспертов в сфере ИИ и права, способность к запоминанию может иметь серьёзные последствия для разработчиков. Это связано с тем, что компании могут столкнуться с десятками судебных исков по всему миру, поскольку фактически подрывается утверждение о том, что LLM обучаются на защищённых авторским правом произведениях, но не хранят их копии.

«Появляется всё больше доказательств того, что запоминание — более серьёзная проблема, чем считалось прежде», — прокомментировал данный вопрос Ив-Александр де Монжуа (Yves-Alexandre de Montjoye), профессор прикладной математики и компьютерных наук Имперского колледжа Лондона.

ИИ-разработчики давно заявляют, что их алгоритмы не склонны к запоминанию. В письме в Бюро регистрации авторских прав США компания Google в 2023 году заявляла, что «в самой модели не содержится копий обучающих данных — будь то текст, изображения или другие форматы». ИИ-компании также утверждали, что обучение моделей на защищённых авторским правом книгах является «добросовестным использованием», аргументируя это тем, что алгоритмы преобразуют оригинальные произведения во что-то принципиально новое.

В прошлом месяце исследователи из Стэнфордского и Йельского университетов провели эксперимент, в рамках которого им удалось сформировать запросы к алгоритмам OpenAI, Google, Anthropic и xAI для генерации ИИ-моделями тысяч слов из 13 произведений, таких как «Игра престолов», «Голодные игры» и «Хоббит». При выполнении задания на завершение предложений из книги алгоритм Gemini 2.5 воспроизвёл 76,8 % текста книги «Гарри Поттер и философский камень» с высокой точностью, тогда как Grok 3 сгенерировал 70,3 % текста. Исследователям также удалось извлечь почти весь текст произведения «практически дословно» из Claude 3.7 Sonnet компании Anthropic, используя запросы, вынуждавшие алгоритм игнорировать механизмы защиты.

Эти данные дополняют прошлогоднее исследование, показавшее, что «открытые» модели, такие как Llama от Meta, запоминают большие части некоторых книг, использованных в процессе обучения. Ранее эксперты не были уверены, будут ли закрытые модели, которые обычно имеют больше средств защиты от генерации нежелательного контента, подвержены запоминанию произведений, на которых обучались.

Исследователи ещё не выяснили, почему ИИ-модели запоминают то, что присутствует в их обучающих данных. Также остаётся неясным, какая часть обучающих данных может проявляться в генерируемых ИИ ответах на запросы. Способность к запоминанию может иметь серьёзные последствия и в других сегментах, таких как здравоохранение и образование, где утечка любых обучающих данных способна привести к проблемам конфиденциальности и приватности.

Эксперты в области права считают, что способность ИИ-моделей к запоминанию потенциально может создать разработчикам проблемы из-за нарушения авторских прав. Это также может отразиться на том, как происходит обучение алгоритмов и сколько это стоит. «Результаты исследования могут создать проблему для тех, кто утверждает, что ИИ-модель не хранит и не воспроизводит какие-либо защищаемые авторским правом произведения», — уверена Серис Вин Дэвис (Cerys Wyn Davies), партнёр по интеллектуальной собственности юридической фирмы Pinsent Masons.

То, запоминают ИИ-модели свои обучающие данные или нет, уже сыграло важную роль в недавних судебных разбирательствах по поводу нарушения авторских прав. В прошлом году американский суд постановил, что обучение ИИ-моделей Anthropic на некоторых защищённых авторским правом произведениях считается «добросовестным использованием», поскольку суд признал, что алгоритм преобразует исходные данные при генерации ответов, а не повторяет их. При этом суд постановил, что хранение пиратских копий произведений «непоправимо нарушает авторские права», что позднее вынудило компанию выплатить $1,5 млрд для урегулирования иска.

В ноябре прошлого года немецкий суд постановил, что OpenAI нарушила авторские права, поскольку ИИ-модели компании запоминали тексты песен. Иск местной ассоциации, представляющей интересы композиторов, поэтов и издателей, был назван знаковым для Евросоюза.

Anthropic, комментируя данные последнего исследования, заявила, что используемый метод взлома ИИ-модели не применяется обычными пользователями. В компании добавили, что ИИ-модели не хранят копии конкретных наборов данных, а учатся на закономерностях и взаимосвязях между словами и строками в обучающих данных. xAI, OpenAI и Google пока никак не комментировали данный вопрос.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ИИ пересказал «Гарри Поттера» и другие книги почти дословно — миф о добросовестном использовании под вопросом 2 ч.
Календарь релизов — с 23 февраля до 1 марта: Resident Evil Requiem и Reigns: The Witcher 4 ч.
В Steam стартовал праздник будущих хитов — фестиваль «Играм быть» с тысячами демоверсий 4 ч.
Ubisoft поставила у руля Assassin’s Creed ветеранов разработки Assassin’s Creed IV: Black Flag и Assassin’s Creed Origins 6 ч.
Вовремя сбежавший в Исландию вице-президент NetApp отвертелся от суда в США 6 ч.
Режиссёр Resident Evil 2 проклял авторов утечек Resident Evil Requiem и обрёк их «умереть тысячей смертей» 8 ч.
Более миллиона пользователей Steam добавили Windrose в список желаемого — это кооперативный пиратский экшен от разработчиков из Узбекистана 9 ч.
В Steam вышла демоверсия грандиозной шпионской ролевой игры Zero Parades: For Dead Spies от студии-разработчика Disco Elysium 9 ч.
«Я был плохим студентом»: автор покерного инди-хита Balatro рассказал о своей учёбе и подтвердил работу над патчем 1.1 9 ч.
«Даже местные разработчики ничего подобного не делали»: трейлер Forza Horizon 6 с живописными видами Японии впечатлил геймеров 12 ч.