Сегодня 25 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ пересказал «Гарри Поттера» и другие книги почти дословно — миф о добросовестном использовании под вопросом

Большие языковые модели (LLM) от ведущих представителей индустрии могут по запросу сгенерировать почти дословные копии книжных бестселлеров. Это даёт повод задать новые вопросы разработчикам, которые не раз утверждали, что их алгоритмы не хранят защищённые авторским правом произведения.

 Источник изображения: AI

Источник изображения: AI

Проведённые недавно исследования показали, что ИИ-модели OpenAI, Google, Meta, Anthropic и xAI запоминают гораздо больше обучающих данных, чем было принято считать. По данным экспертов в сфере ИИ и права, способность к запоминанию может иметь серьёзные последствия для разработчиков. Это связано с тем, что компании могут столкнуться с десятками судебных исков по всему миру, поскольку фактически подрывается утверждение о том, что LLM обучаются на защищённых авторским правом произведениях, но не хранят их копии.

«Появляется всё больше доказательств того, что запоминание — более серьёзная проблема, чем считалось прежде», — прокомментировал данный вопрос Ив-Александр де Монжуа (Yves-Alexandre de Montjoye), профессор прикладной математики и компьютерных наук Имперского колледжа Лондона.

ИИ-разработчики давно заявляют, что их алгоритмы не склонны к запоминанию. В письме в Бюро регистрации авторских прав США компания Google в 2023 году заявляла, что «в самой модели не содержится копий обучающих данных — будь то текст, изображения или другие форматы». ИИ-компании также утверждали, что обучение моделей на защищённых авторским правом книгах является «добросовестным использованием», аргументируя это тем, что алгоритмы преобразуют оригинальные произведения во что-то принципиально новое.

В прошлом месяце исследователи из Стэнфордского и Йельского университетов провели эксперимент, в рамках которого им удалось сформировать запросы к алгоритмам OpenAI, Google, Anthropic и xAI для генерации ИИ-моделями тысяч слов из 13 произведений, таких как «Игра престолов», «Голодные игры» и «Хоббит». При выполнении задания на завершение предложений из книги алгоритм Gemini 2.5 воспроизвёл 76,8 % текста книги «Гарри Поттер и философский камень» с высокой точностью, тогда как Grok 3 сгенерировал 70,3 % текста. Исследователям также удалось извлечь почти весь текст произведения «практически дословно» из Claude 3.7 Sonnet компании Anthropic, используя запросы, вынуждавшие алгоритм игнорировать механизмы защиты.

Эти данные дополняют прошлогоднее исследование, показавшее, что «открытые» модели, такие как Llama от Meta, запоминают большие части некоторых книг, использованных в процессе обучения. Ранее эксперты не были уверены, будут ли закрытые модели, которые обычно имеют больше средств защиты от генерации нежелательного контента, подвержены запоминанию произведений, на которых обучались.

Исследователи ещё не выяснили, почему ИИ-модели запоминают то, что присутствует в их обучающих данных. Также остаётся неясным, какая часть обучающих данных может проявляться в генерируемых ИИ ответах на запросы. Способность к запоминанию может иметь серьёзные последствия и в других сегментах, таких как здравоохранение и образование, где утечка любых обучающих данных способна привести к проблемам конфиденциальности и приватности.

Эксперты в области права считают, что способность ИИ-моделей к запоминанию потенциально может создать разработчикам проблемы из-за нарушения авторских прав. Это также может отразиться на том, как происходит обучение алгоритмов и сколько это стоит. «Результаты исследования могут создать проблему для тех, кто утверждает, что ИИ-модель не хранит и не воспроизводит какие-либо защищаемые авторским правом произведения», — уверена Серис Вин Дэвис (Cerys Wyn Davies), партнёр по интеллектуальной собственности юридической фирмы Pinsent Masons.

То, запоминают ИИ-модели свои обучающие данные или нет, уже сыграло важную роль в недавних судебных разбирательствах по поводу нарушения авторских прав. В прошлом году американский суд постановил, что обучение ИИ-моделей Anthropic на некоторых защищённых авторским правом произведениях считается «добросовестным использованием», поскольку суд признал, что алгоритм преобразует исходные данные при генерации ответов, а не повторяет их. При этом суд постановил, что хранение пиратских копий произведений «непоправимо нарушает авторские права», что позднее вынудило компанию выплатить $1,5 млрд для урегулирования иска.

В ноябре прошлого года немецкий суд постановил, что OpenAI нарушила авторские права, поскольку ИИ-модели компании запоминали тексты песен. Иск местной ассоциации, представляющей интересы композиторов, поэтов и издателей, был назван знаковым для Евросоюза.

Anthropic, комментируя данные последнего исследования, заявила, что используемый метод взлома ИИ-модели не применяется обычными пользователями. В компании добавили, что ИИ-модели не хранят копии конкретных наборов данных, а учатся на закономерностях и взаимосвязях между словами и строками в обучающих данных. xAI, OpenAI и Google пока никак не комментировали данный вопрос.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Twitch отказался от блокировок «всё или ничего» и разделил наказания 60 мин.
Discord отложил глобальное внедрение проверки возраста, но ненадолго 2 ч.
Anthropic научила ИИ-платформу Claude Cowork справляться с большим числом офисных задач 3 ч.
Google предложит музыкантам ИИ-продюсера вместо генератора случайных мелодий — компания поглотила ProducerAI 5 ч.
Marvel’s Wolverine выйдет до GTA VI — Sony подтвердила дату релиза жестокого боевика от создателей «Человека-паука» 6 ч.
Blizzard анонсировала новую Overwatch, но это мобильная игра — первый геймплей и подробности Overwatch Rush 7 ч.
Death Stranding 2: On the Beach оптимизируют даже для бюджетных ПК — объявлены системные требования 7 ч.
Противоречивого бота xAI Grok допустят к секретным военным системам США 8 ч.
Amazon закроет кооперативный платформер King of Meat спустя полгода после релиза — рассчитывали на 100 тысяч игроков, а получили 320 (не тысяч) 8 ч.
«Притворяться было бы ужасной идеей»: глава Microsoft Gaming ответила на подозрения игроков 8 ч.
Новая статья: Обзор складного смартфона Google Pixel 10 Pro Fold, который не боится пыли 5 мин.
OpenAI признала, что ИИ до сих пор не проник в бизнес по-настоящему — и объяснила, почему 2 ч.
Новая статья: Компьютер месяца, спецвыпуск: эпоха отката, или Как дефицит чипов памяти влияет на выбор железа для игрового ПК 2 ч.
SambaNova представила ИИ-ускоритель SN50 и объявила о расширении партнёрства с Intel 3 ч.
DJI подала в суд на FCC за превышение полномочий при блокировке импорта дронов в США 3 ч.
Новая керамическая электроника откроет путь к возвращению на Венеру — не на часы, а на дни и недели 4 ч.
SanDisk представила портативные SSD со скоростью до 4000 Мбайт/с и объёмом до 8 Тбайт 6 ч.
В США нашли замену полупроводниковым лазерам — это особые microLED толщиной с волос 7 ч.
Xiaomi выпустила шестёрку мониторов для геймеров и не только — от 24 до 34 дюймов по цене от $70 7 ч.
Meta купит у AMD чипов на $100 млрд для ИИ-систем на 6 ГВт — и получит «в подарок» кусочек самой AMD 7 ч.