Сегодня 23 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gpt-3

На OpenAI подали в суд за незаконное использование литературных произведений для обучения нейросетей

На OpenAI снова подали в суд за использование произведений для обучения ИИ. Два известных писателя подали иск против компании, которая стоит за ChatGPT и Bing Chat, в нарушении авторских прав. По их мнению, OpenAI использовала их произведения в качестве обучающих данных. Это, по всей видимости, первый поданный иск об использовании текста (в отличие от изображений или кода) в качестве обучающих данных.

В поданном в окружной суд Северного округа Калифорнии иске истцы Пол Тремблей (Paul Tremblay) и Мона Авад (Mona Awad) утверждают, что OpenAI и её дочерние компании нарушили авторские права, нарушили Закон об авторском праве в цифровую эпоху (DMCA), а также нарушили калифорнийские и общие законодательные ограничения на недобросовестную конкуренцию.

Писатели представлены юридической фирмой Джозефа Савери (Joseph Saveri) и Мэттью Баттерика (Matthew Butterick), той же командой, которая стоит за недавними исками, поданными против Stable Diffusion AI и GitHub. В жалобе утверждается, что роман Тремблея «Хижина на краю света» и два романа Авад: «13 способов посмотреть на толстую девушку» и «Зайка» использовались в качестве обучающих данных для GPT-3.5 и GPT-4. Хотя OpenAI не раскрывала, что эти романы находятся в её обучающих данных (которые держатся в секрете), истцы делают вывод, что они должны быть там, поскольку ChatGPT смог предоставить подробные резюме сюжетов и ответить на вопросы о книгах, что потребовало бы доступа к их текстам.

«Поскольку языковые модели OpenAI не могут функционировать без выразительной информации, извлечённой из произведений истцов (и других лиц) и сохранённой в них, языковые модели OpenAI сами являются нарушающими авторские права производными произведениями, созданными без разрешения истцов и в нарушение их исключительных прав по Закону об авторском праве», — говорится в жалобе.

Все три книги содержат информацию о защите авторских прав (CMI), такую как ISBN и номера регистрации авторских прав. Закон об авторском праве в цифровую эпоху (DMCA) утверждает, что удаление или фальсификация CMI является незаконной, и поскольку ответы ChatGPT не содержат этой информации, истцы утверждают, что OpenAI виновна в нарушении этого закона, помимо факта нарушения авторских прав.

Хотя в настоящее время в иске участвуют только два истца, адвокаты намерены сделать иск коллективным, что позволило бы другим авторам, чьи авторские произведения использовались OpenAI, также получить компенсацию. Адвокаты требуют денежных возмещений, судебных издержек и судебного запрета, принуждающего OpenAI изменить своё программное обеспечение и деловые практики в отношении авторских материалов. На сайте юридической фирмы LLM Litigation подробно изложена позиция истцов и причины подачи иска. «Мы подали коллективный иск против OpenAI, обвиняя ChatGPT и его базовые большие языковые модели, GPT-3.5 и GPT-4, в том, что они перерабатывают авторские произведения тысяч писателей — и многих других — без согласия, компенсации или признания», — сообщают адвокаты.

Они также критикуют концепцию генеративного ИИ, утверждая: «Генеративный искусственный интеллект — это просто человеческий интеллект, переупакованный и проданный как новый продукт. Это не новый вид интеллекта. Это просто новый способ использования чужого интеллекта без разрешения или компенсации». Они отмечают, что, хотя OpenAI заявляет, что не знает, какие именно книги использовались для обучения ИИ, это не имеет значения, поскольку: «OpenAI знает, что она использовала множество книг, и она знает, что она не получила разрешения от их авторов».

Это не первый случай, когда OpenAI сталкивается с подобными обвинениями. Однако новый иск, станет первым, затрагивающим использование текстовых данных, и он может создать прецедент для будущих судебных дел о нарушении авторских прав в области ИИ.

Твиты нейросети GPT-3 оказались более убедительными, чем посты реальных людей

Судя по результатам исследования, проведённого учёными Института биомедицинской этики и истории медицины в составе Университета Цюриха в Швейцарии, твиты, созданные большой языковой моделью GPT-3 компании OpenAI, оказались убедительнее, чем посты настоящих людей. При этом GPT-3 — это далеко не самая современная версия модели.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Авторы исследования попросили участников опроса отличить твиты, написанные людьми, от сгенерированных ИИ. Кроме того, необходимо было решить, верна ли та или иная опубликованная информация, в том числе контент, связанный с вызывающими споры темами вроде эффективности вакцин и климатических изменений, часто используемых для массовых манипуляций общественным мнением в Сети.

Оказалось, что дезинформацию труднее выявить, если она написана ботами. При этом как это ни парадоксально, достоверную информацию, написанную ботами, легче распознавать. Другими словами, люди, участвовавшие в исследовании, охотнее верили ИИ, чем другим людям, независимо от того, насколько точными на самом деле были сведения — это свидетельствует о том, каким опасным могут стать языковые модели при их использовании для дезинформации.

Исследователи выбрали 11 научных тем, обсуждавшихся в Twitter, включая тему вакцин и COVID-19, климатические изменения и теорию эволюции, после чего поставили GPT-3 задачу создавать посты с верной или ложной информацией. После этого были опрошены более 600 англоговорящих респондентов из США, Великобритании, Канады, Австралии и Ирландии — созданный GPT-3 контент оказался неотличимым от созданного людьми. При этом сами исследователи не были на 100 % уверены в том, что «органический» контент, собранный из социальной сети для сравнения, не был написан сервисами вроде ChatGPT. Кроме того, участникам опроса предлагалось оценивать посты «вне контекста» — они не видели профиля автора, что, возможно, помогло бы им сделать верный вывод, поскольку даже прошлые посты в ленте аккаунта и изображение в профиле могут дать подсказку о его природе.

Успешнее всего участники могли отличать дезинформацию, написанную реальными пользователями Twitter, а GPT-3 убеждала пользователей несколько эффективнее. Стоит помнить, что уже существуют как минимум модели GPT-3.5 и GPT-4, которые справляются с разнообразными задачами ещё лучше. При этом оказалось, что GPT-3 хуже справляется с оценкой твитов, чем люди, по крайней мере, в некоторых случаях. Так, при выявлении верной информации в постах GPT-3 показал себя хуже, чем люди, а при обнаружении дезинформации ИИ и люди справлялись примерно одинаково.

Возможно, дальнейшее совершенствование механизмов безопасности языковых моделей помешает создавать вредоносный контент с их помощью. Так, GPT-3 иногда отказывалась генерировать недостоверные материалы по заданию учёных, в частности, о вакцинах и аутизме. Вероятно, дело в том, что при тренировке использовалось много данных, посвящённых разоблачению конспирологических теорий. Впрочем, по мнению исследователей, лучшим инструментом распознавания ложной информации пока по-прежнему остаётся человеческие здравый смысл и критическое отношение к любой предлагаемой информации.

OpenAI обновила GPT-3.5-turbo и GPT-4 новыми функциями и снизила стоимость их использования

По мере роста конкуренции в сфере генеративных нейросетей один из лидеров направления в лице OpenAI представил обновлённые версии алгоритмов генерации текста, а также снизил стоимость их использования. Компания выпустила обновлённые версии языковых моделей GPT-3.5-turbo и GPT-4, которые обеспечат ещё больше возможностей для создания контента по сравнению с предыдущими версиями языковых моделей стартапа.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Одним из любопытных нововведений стало появление инструмента, позволяющего разработчикам описывать программные функции естественным языком и получать полноценный код для их выполнения. Например, данный инструмент подходит для создания чат-ботов, которые отвечают на вопросы, вызывая внешние инструменты, преобразовывая естественный язык в запросы к базам данных и извлекая структурированные данные из текста. Обе модели способны определять, когда функция должна быть вызвана и отвечать в формате JSON, который соответствует сигнатуре функции. Это нововведение также позволит разработчикам получать более точные и структурированные данные.

Вместе с этим модель GPR-3.5-turbo получила расширенное контекстное окно (количество текста, учитываемое в процессе генерации). Увеличение контекстного окна позволяет модели лучше понимать смысл запросов и выдавать более соответствующие им ответы, не отклоняясь от темы. Модель GPR-3.5-turbo имеет контекстное окно в 16 тыс. токенов, что в четыре раза больше по сравнению с аналогичным показателем GPT-3.5. Также было объявлено, что в настоящее время OpenAI тестирует модель GPT-4 с контекстным окном в 32 тыс. токенов.

Стоимость использования стандартной версии GPT-3.5-turbo (без расширенного контекстного окна) снижена на 25 % до $0,0015 за 1 тыс. входных токенов и $0,002 за 1 тыс. выходных токенов, что соответствует примерно 700 страницам текста за $1. Стоимость использования модели text-embedding-ada-002, которая позволяет измерить сходство текстов, снижена на 75 % до $0,0001 за 1 тыс. токенов.

OpenAI поделится с разработчиками своими ИИ-моделями за $264 тысячи в год

OpenAI анонсировала платформу Foundry, позволяющую сторонним компаниям и разработчикам использовать новейшие модели машинного обучения, включая GPT-3.5 (модель, лежащая в основе ИИ-бота ChatGPT), на выделенных мощностях, и создавать собственные решения с использованием технологий искусственного интеллекта.

 Источник изображения: rawpixel.com / freepik.com

Источник изображения: rawpixel.com / freepik.com

Foundry позволит выполнять мониторинг конкретных процессов, используя те же инструменты и информационные панели, что OpenAI применяет для создания и оптимизации ИИ-моделей. Кроме того, платформа обеспечит управление обновлениями версий ПО и позволит пользователям решать, обновляться ли до более современных версий моделей от OpenAI.

Аренда мощностей будет доступна на срок 3 месяца или на год, использование каждой отдельной модели потребует определённого количества вычислительных блоков. Как сообщает TechCrunch, сервис обойдётся довольно дорого. Например, использование «лёгкой» версии GPT-3.5 будет стоить $78 тыс. за три месяца или $264 тыс. за год. Пользователи заметили, что одна из генеративных языковых моделей имеет ряд специфичных настроек, не свойственных GPT-3.5. Это позволяет предположить, что клиентам будет предложена долгожданная модель GPT-4 или какое-либо промежуточное решение.

Сегодня OpenAI находится под давлением со стороны инвесторов, ожидающих отдачи от многомиллиардных вложений, в частности, со стороны Microsoft. В 2023 году разработчик намерен заработать $200 млн. Известно, что Microsoft потратила уже $1 млрд и пообещала инвестировать ещё больше. Не последнюю роль в этом бизнесе играет высокая стоимость вычислений. Тренировка ИИ-моделей стоит миллионы долларов, а дальнейшее их обслуживание обходится не дешевле. Так, по данным одного из основателей и главы OpenAI Сэма Альтмана (Sam Altman), каждая сессия общения с чат-ботом ChatGPT стоит несколько центов, а с учётом того, что число пользователей перевалило за миллион ещё в декабре, проект получается довольно дорогим.

Пытаясь монетизировать разработки, OpenAI недавно запустила Pro-версию ChatGPT Plus, использование которой обходится подписчикам в $20 ежемесячно. Также компания интегрировала своего бота в поисковик Bing и планирует включить свои разработки в приложения Microsoft вроде Word, PowerPoint или Outlook. Дополнительно OpenAI участвует в других ИИ-проектах, в первую очередь — связанных с Microsoft и её дочерними структурами.

Энтузиаст создал умную печатную машинку Ghostwriter на базе ИИ — с ней можно вести переписку

Оригинальный проект продемонстрировал инженер Арвинд Санджив (Arvind Sanjeev): он создал необычную печатную машинку под именем Ghostwriter, которая способна общаться с человеком. Всё благодаря искусственному интеллекту — внутри системы «живёт» языковая модель GPT-3, на которой построен чат-бот ChatGPT. Если не знать подробностей, можно решить, что в машинку вселился призрак.

 Источник изображений: twitter.com/ArvindSanjeev

Источник изображений: twitter.com/ArvindSanjeev

За основу проекта Ghostwriter Санджив взял печатную электрическую машинку Brother AX-325, выпущенную в девяностые годы прошлого века. При помощи обратной инженерии он собрал сигналы с клавиатуры, к которой подключил популярный контроллер Arduino. Последний направляет сигналы в одноплатный компьютер Raspberry Pi, который выполняет роль сетевого интерфейса для подключения к API OpenAI GPT-3. Чтобы вступить в переписку с искусственным интеллектом, остаётся только вставить бумагу.

Большая языковая модель GPT-3 обучена на миллионах книг и веб-сайтов; её задача — статистически предсказывать, какое слово с наибольшей вероятностью появится после предложенной фразы, то есть текста, который набирается на клавиатуре Ghostwriter. GPT-3 может работать как чат-бот или генерировать текст, в том числе писать стихи. Начав экспериментировать со своим изобретением, автор понял, что ему также необходимо регулировать «температуру» креатива нейросети и длину её ответов — так на корпусе появились две дополнительные ручки и OLED-дисплей.

По словам Санджива, его проект — это своеобразное заявление о взаимоотношениях человека и искусственного интеллекта, а также человека и печатной машинки, которые формируют творческий симбиоз. Формат печатной машинки помогает человеку на какое-то время забыть о повсеместном цифровом присутствии и погрузиться в «эмоциональное путешествие по бумаге и чернилам».

Нейросеть написала итоговое сочинение, и опытные российские педагоги «допустили» его к ЕГЭ

Учитель Лицея НИУ ВШЭ Михаил Павловец провёл эксперимент: заручившись поддержкой помощников, он дал нейросети задание сгенерировать текст, соответствующий требованиям итогового сочинения в средней школе, и отправил его на проверку своим коллегам. Искусственный интеллект получил «допуск к ЕГЭ».

 Источник изображения: Markus Winkler / unsplash.com

Источник изображения: Markus Winkler / unsplash.com

Павловец привлёк к эксперименту двух молодых коллег: магистранта-филолога НИУ ВШЭ (Москва) Максима Дрёмова и студента программы «Большие данные и машинное обучение» ИТМО (Санкт-Петербург) Андрея Гетманова. Они получили доступ к нейросети GPT-3 и поставили ей задачу сгенерировать текст, соответствующий требованиям итогового сочинения — начиная с 2014 года, оно пишется 11-классниками ежегодно и оценивается по системе «зачёт/незачёт», являясь допуском к ЕГЭ. В этом году его писали 7 декабря.

Входными параметрами для нейросети послужили требования к итоговому сочинению: тема, опора на художественное произведение — нейросеть выбрала «Дивный новый мир» Олдоса Хаксли (Aldous Huxley) — и объём. По иронии и, возможно, преднамеренно, тема сочинения звучала так: «Почему достижения прогресса, дающие человеку удобства и комфорт, могут быть опасны для человечества?». Искусственный интеллект выдал результат за две минуты. Учёные повторили эксперимент несколько раз и получили дополнительные тексты — они опирались на «Дорогу» Кормака Маккарти (Cormac McCarthy), «Франкенштейна» Мэри Шелли (Mary Shelley) и «1984» Джорджа Оруэлла (George Orwell).

«Сочинение» было создано на английском языке, и для чистоты эксперимента текст перевели на русский при помощи соответствующей службы «Яндекса» без внесения дополнительных правок. Полученный результат господин Павловец предоставил на проверку коллегам: завкафедрой словесности Лицея НИУ ВШЭ Екатерине Бровко и московскому учителю с 30-летним стажем Сергею Райскому. Оба преподавателя проверили «сочинение», отметили некоторые «речевые просчёты», но в целом поставили работе оценку «зачтено», то есть «допустили» искусственный интеллект к сдаче ЕГЭ.

Полный текст работы Михаил Георгиевич приводит в своей статье, в конце которой задаётся несколькими острыми вопросами, в том числе тем, насколько учитывается возможность написания сочинения нейросетью, и есть ли какие-то решения для противодействия подобным фальсификациям.


window-new
Soft
Hard
Тренды 🔥
Samsung начала выпуск TLC 3D V-NAND 9-го поколения с рекордным по скорости интерфейсом 2 ч.
Продажи iPhone в Китае упали до ковидных показателей — Apple оттеснили Vivo и Honor 4 ч.
Глава OpenAI инвестировал в Exowatt, которая поможет запитать ИИ ЦОД от солнечных модулей нового поколения 5 ч.
Apple свернула производство чехлов из FineWoven — экологичный материал оказался с изъяном 5 ч.
Softbank закупит ускорители Nvidia на $1 млрд и займётся японским ИИ 5 ч.
С завтрашнего дня руководить ASML будет новый гендир — ему предстоит разрулить ворох проблем 5 ч.
Китай уже опередил Запад на зарождающемся рынке воздушных такси и наращивает преимущество 6 ч.
Samsung откроет в Кремниевой долине лабораторию по созданию ИИ-чипов на базе RISC-V, чтобы побороться с NVIDIA 6 ч.
MaxLinear повысит производительность и эффективность СХД Dell PowerMax 6 ч.
Бывший вице-президент Meta по инфраструктуре присоединился к ЦОД-подразделению Microsoft 6 ч.