Сегодня 22 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gpt-3

На OpenAI подали в суд за незаконное использование литературных произведений для обучения нейросетей

На OpenAI снова подали в суд за использование произведений для обучения ИИ. Два известных писателя подали иск против компании, которая стоит за ChatGPT и Bing Chat, в нарушении авторских прав. По их мнению, OpenAI использовала их произведения в качестве обучающих данных. Это, по всей видимости, первый поданный иск об использовании текста (в отличие от изображений или кода) в качестве обучающих данных.

В поданном в окружной суд Северного округа Калифорнии иске истцы Пол Тремблей (Paul Tremblay) и Мона Авад (Mona Awad) утверждают, что OpenAI и её дочерние компании нарушили авторские права, нарушили Закон об авторском праве в цифровую эпоху (DMCA), а также нарушили калифорнийские и общие законодательные ограничения на недобросовестную конкуренцию.

Писатели представлены юридической фирмой Джозефа Савери (Joseph Saveri) и Мэттью Баттерика (Matthew Butterick), той же командой, которая стоит за недавними исками, поданными против Stable Diffusion AI и GitHub. В жалобе утверждается, что роман Тремблея «Хижина на краю света» и два романа Авад: «13 способов посмотреть на толстую девушку» и «Зайка» использовались в качестве обучающих данных для GPT-3.5 и GPT-4. Хотя OpenAI не раскрывала, что эти романы находятся в её обучающих данных (которые держатся в секрете), истцы делают вывод, что они должны быть там, поскольку ChatGPT смог предоставить подробные резюме сюжетов и ответить на вопросы о книгах, что потребовало бы доступа к их текстам.

«Поскольку языковые модели OpenAI не могут функционировать без выразительной информации, извлечённой из произведений истцов (и других лиц) и сохранённой в них, языковые модели OpenAI сами являются нарушающими авторские права производными произведениями, созданными без разрешения истцов и в нарушение их исключительных прав по Закону об авторском праве», — говорится в жалобе.

Все три книги содержат информацию о защите авторских прав (CMI), такую как ISBN и номера регистрации авторских прав. Закон об авторском праве в цифровую эпоху (DMCA) утверждает, что удаление или фальсификация CMI является незаконной, и поскольку ответы ChatGPT не содержат этой информации, истцы утверждают, что OpenAI виновна в нарушении этого закона, помимо факта нарушения авторских прав.

Хотя в настоящее время в иске участвуют только два истца, адвокаты намерены сделать иск коллективным, что позволило бы другим авторам, чьи авторские произведения использовались OpenAI, также получить компенсацию. Адвокаты требуют денежных возмещений, судебных издержек и судебного запрета, принуждающего OpenAI изменить своё программное обеспечение и деловые практики в отношении авторских материалов. На сайте юридической фирмы LLM Litigation подробно изложена позиция истцов и причины подачи иска. «Мы подали коллективный иск против OpenAI, обвиняя ChatGPT и его базовые большие языковые модели, GPT-3.5 и GPT-4, в том, что они перерабатывают авторские произведения тысяч писателей — и многих других — без согласия, компенсации или признания», — сообщают адвокаты.

Они также критикуют концепцию генеративного ИИ, утверждая: «Генеративный искусственный интеллект — это просто человеческий интеллект, переупакованный и проданный как новый продукт. Это не новый вид интеллекта. Это просто новый способ использования чужого интеллекта без разрешения или компенсации». Они отмечают, что, хотя OpenAI заявляет, что не знает, какие именно книги использовались для обучения ИИ, это не имеет значения, поскольку: «OpenAI знает, что она использовала множество книг, и она знает, что она не получила разрешения от их авторов».

Это не первый случай, когда OpenAI сталкивается с подобными обвинениями. Однако новый иск, станет первым, затрагивающим использование текстовых данных, и он может создать прецедент для будущих судебных дел о нарушении авторских прав в области ИИ.

Твиты нейросети GPT-3 оказались более убедительными, чем посты реальных людей

Судя по результатам исследования, проведённого учёными Института биомедицинской этики и истории медицины в составе Университета Цюриха в Швейцарии, твиты, созданные большой языковой моделью GPT-3 компании OpenAI, оказались убедительнее, чем посты настоящих людей. При этом GPT-3 — это далеко не самая современная версия модели.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Авторы исследования попросили участников опроса отличить твиты, написанные людьми, от сгенерированных ИИ. Кроме того, необходимо было решить, верна ли та или иная опубликованная информация, в том числе контент, связанный с вызывающими споры темами вроде эффективности вакцин и климатических изменений, часто используемых для массовых манипуляций общественным мнением в Сети.

Оказалось, что дезинформацию труднее выявить, если она написана ботами. При этом как это ни парадоксально, достоверную информацию, написанную ботами, легче распознавать. Другими словами, люди, участвовавшие в исследовании, охотнее верили ИИ, чем другим людям, независимо от того, насколько точными на самом деле были сведения — это свидетельствует о том, каким опасным могут стать языковые модели при их использовании для дезинформации.

Исследователи выбрали 11 научных тем, обсуждавшихся в Twitter, включая тему вакцин и COVID-19, климатические изменения и теорию эволюции, после чего поставили GPT-3 задачу создавать посты с верной или ложной информацией. После этого были опрошены более 600 англоговорящих респондентов из США, Великобритании, Канады, Австралии и Ирландии — созданный GPT-3 контент оказался неотличимым от созданного людьми. При этом сами исследователи не были на 100 % уверены в том, что «органический» контент, собранный из социальной сети для сравнения, не был написан сервисами вроде ChatGPT. Кроме того, участникам опроса предлагалось оценивать посты «вне контекста» — они не видели профиля автора, что, возможно, помогло бы им сделать верный вывод, поскольку даже прошлые посты в ленте аккаунта и изображение в профиле могут дать подсказку о его природе.

Успешнее всего участники могли отличать дезинформацию, написанную реальными пользователями Twitter, а GPT-3 убеждала пользователей несколько эффективнее. Стоит помнить, что уже существуют как минимум модели GPT-3.5 и GPT-4, которые справляются с разнообразными задачами ещё лучше. При этом оказалось, что GPT-3 хуже справляется с оценкой твитов, чем люди, по крайней мере, в некоторых случаях. Так, при выявлении верной информации в постах GPT-3 показал себя хуже, чем люди, а при обнаружении дезинформации ИИ и люди справлялись примерно одинаково.

Возможно, дальнейшее совершенствование механизмов безопасности языковых моделей помешает создавать вредоносный контент с их помощью. Так, GPT-3 иногда отказывалась генерировать недостоверные материалы по заданию учёных, в частности, о вакцинах и аутизме. Вероятно, дело в том, что при тренировке использовалось много данных, посвящённых разоблачению конспирологических теорий. Впрочем, по мнению исследователей, лучшим инструментом распознавания ложной информации пока по-прежнему остаётся человеческие здравый смысл и критическое отношение к любой предлагаемой информации.

OpenAI обновила GPT-3.5-turbo и GPT-4 новыми функциями и снизила стоимость их использования

По мере роста конкуренции в сфере генеративных нейросетей один из лидеров направления в лице OpenAI представил обновлённые версии алгоритмов генерации текста, а также снизил стоимость их использования. Компания выпустила обновлённые версии языковых моделей GPT-3.5-turbo и GPT-4, которые обеспечат ещё больше возможностей для создания контента по сравнению с предыдущими версиями языковых моделей стартапа.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Одним из любопытных нововведений стало появление инструмента, позволяющего разработчикам описывать программные функции естественным языком и получать полноценный код для их выполнения. Например, данный инструмент подходит для создания чат-ботов, которые отвечают на вопросы, вызывая внешние инструменты, преобразовывая естественный язык в запросы к базам данных и извлекая структурированные данные из текста. Обе модели способны определять, когда функция должна быть вызвана и отвечать в формате JSON, который соответствует сигнатуре функции. Это нововведение также позволит разработчикам получать более точные и структурированные данные.

Вместе с этим модель GPR-3.5-turbo получила расширенное контекстное окно (количество текста, учитываемое в процессе генерации). Увеличение контекстного окна позволяет модели лучше понимать смысл запросов и выдавать более соответствующие им ответы, не отклоняясь от темы. Модель GPR-3.5-turbo имеет контекстное окно в 16 тыс. токенов, что в четыре раза больше по сравнению с аналогичным показателем GPT-3.5. Также было объявлено, что в настоящее время OpenAI тестирует модель GPT-4 с контекстным окном в 32 тыс. токенов.

Стоимость использования стандартной версии GPT-3.5-turbo (без расширенного контекстного окна) снижена на 25 % до $0,0015 за 1 тыс. входных токенов и $0,002 за 1 тыс. выходных токенов, что соответствует примерно 700 страницам текста за $1. Стоимость использования модели text-embedding-ada-002, которая позволяет измерить сходство текстов, снижена на 75 % до $0,0001 за 1 тыс. токенов.

OpenAI поделится с разработчиками своими ИИ-моделями за $264 тысячи в год

OpenAI анонсировала платформу Foundry, позволяющую сторонним компаниям и разработчикам использовать новейшие модели машинного обучения, включая GPT-3.5 (модель, лежащая в основе ИИ-бота ChatGPT), на выделенных мощностях, и создавать собственные решения с использованием технологий искусственного интеллекта.

 Источник изображения: rawpixel.com / freepik.com

Источник изображения: rawpixel.com / freepik.com

Foundry позволит выполнять мониторинг конкретных процессов, используя те же инструменты и информационные панели, что OpenAI применяет для создания и оптимизации ИИ-моделей. Кроме того, платформа обеспечит управление обновлениями версий ПО и позволит пользователям решать, обновляться ли до более современных версий моделей от OpenAI.

Аренда мощностей будет доступна на срок 3 месяца или на год, использование каждой отдельной модели потребует определённого количества вычислительных блоков. Как сообщает TechCrunch, сервис обойдётся довольно дорого. Например, использование «лёгкой» версии GPT-3.5 будет стоить $78 тыс. за три месяца или $264 тыс. за год. Пользователи заметили, что одна из генеративных языковых моделей имеет ряд специфичных настроек, не свойственных GPT-3.5. Это позволяет предположить, что клиентам будет предложена долгожданная модель GPT-4 или какое-либо промежуточное решение.

Сегодня OpenAI находится под давлением со стороны инвесторов, ожидающих отдачи от многомиллиардных вложений, в частности, со стороны Microsoft. В 2023 году разработчик намерен заработать $200 млн. Известно, что Microsoft потратила уже $1 млрд и пообещала инвестировать ещё больше. Не последнюю роль в этом бизнесе играет высокая стоимость вычислений. Тренировка ИИ-моделей стоит миллионы долларов, а дальнейшее их обслуживание обходится не дешевле. Так, по данным одного из основателей и главы OpenAI Сэма Альтмана (Sam Altman), каждая сессия общения с чат-ботом ChatGPT стоит несколько центов, а с учётом того, что число пользователей перевалило за миллион ещё в декабре, проект получается довольно дорогим.

Пытаясь монетизировать разработки, OpenAI недавно запустила Pro-версию ChatGPT Plus, использование которой обходится подписчикам в $20 ежемесячно. Также компания интегрировала своего бота в поисковик Bing и планирует включить свои разработки в приложения Microsoft вроде Word, PowerPoint или Outlook. Дополнительно OpenAI участвует в других ИИ-проектах, в первую очередь — связанных с Microsoft и её дочерними структурами.

Энтузиаст создал умную печатную машинку Ghostwriter на базе ИИ — с ней можно вести переписку

Оригинальный проект продемонстрировал инженер Арвинд Санджив (Arvind Sanjeev): он создал необычную печатную машинку под именем Ghostwriter, которая способна общаться с человеком. Всё благодаря искусственному интеллекту — внутри системы «живёт» языковая модель GPT-3, на которой построен чат-бот ChatGPT. Если не знать подробностей, можно решить, что в машинку вселился призрак.

 Источник изображений: twitter.com/ArvindSanjeev

Источник изображений: twitter.com/ArvindSanjeev

За основу проекта Ghostwriter Санджив взял печатную электрическую машинку Brother AX-325, выпущенную в девяностые годы прошлого века. При помощи обратной инженерии он собрал сигналы с клавиатуры, к которой подключил популярный контроллер Arduino. Последний направляет сигналы в одноплатный компьютер Raspberry Pi, который выполняет роль сетевого интерфейса для подключения к API OpenAI GPT-3. Чтобы вступить в переписку с искусственным интеллектом, остаётся только вставить бумагу.

Большая языковая модель GPT-3 обучена на миллионах книг и веб-сайтов; её задача — статистически предсказывать, какое слово с наибольшей вероятностью появится после предложенной фразы, то есть текста, который набирается на клавиатуре Ghostwriter. GPT-3 может работать как чат-бот или генерировать текст, в том числе писать стихи. Начав экспериментировать со своим изобретением, автор понял, что ему также необходимо регулировать «температуру» креатива нейросети и длину её ответов — так на корпусе появились две дополнительные ручки и OLED-дисплей.

По словам Санджива, его проект — это своеобразное заявление о взаимоотношениях человека и искусственного интеллекта, а также человека и печатной машинки, которые формируют творческий симбиоз. Формат печатной машинки помогает человеку на какое-то время забыть о повсеместном цифровом присутствии и погрузиться в «эмоциональное путешествие по бумаге и чернилам».

Нейросеть написала итоговое сочинение, и опытные российские педагоги «допустили» его к ЕГЭ

Учитель Лицея НИУ ВШЭ Михаил Павловец провёл эксперимент: заручившись поддержкой помощников, он дал нейросети задание сгенерировать текст, соответствующий требованиям итогового сочинения в средней школе, и отправил его на проверку своим коллегам. Искусственный интеллект получил «допуск к ЕГЭ».

 Источник изображения: Markus Winkler / unsplash.com

Источник изображения: Markus Winkler / unsplash.com

Павловец привлёк к эксперименту двух молодых коллег: магистранта-филолога НИУ ВШЭ (Москва) Максима Дрёмова и студента программы «Большие данные и машинное обучение» ИТМО (Санкт-Петербург) Андрея Гетманова. Они получили доступ к нейросети GPT-3 и поставили ей задачу сгенерировать текст, соответствующий требованиям итогового сочинения — начиная с 2014 года, оно пишется 11-классниками ежегодно и оценивается по системе «зачёт/незачёт», являясь допуском к ЕГЭ. В этом году его писали 7 декабря.

Входными параметрами для нейросети послужили требования к итоговому сочинению: тема, опора на художественное произведение — нейросеть выбрала «Дивный новый мир» Олдоса Хаксли (Aldous Huxley) — и объём. По иронии и, возможно, преднамеренно, тема сочинения звучала так: «Почему достижения прогресса, дающие человеку удобства и комфорт, могут быть опасны для человечества?». Искусственный интеллект выдал результат за две минуты. Учёные повторили эксперимент несколько раз и получили дополнительные тексты — они опирались на «Дорогу» Кормака Маккарти (Cormac McCarthy), «Франкенштейна» Мэри Шелли (Mary Shelley) и «1984» Джорджа Оруэлла (George Orwell).

«Сочинение» было создано на английском языке, и для чистоты эксперимента текст перевели на русский при помощи соответствующей службы «Яндекса» без внесения дополнительных правок. Полученный результат господин Павловец предоставил на проверку коллегам: завкафедрой словесности Лицея НИУ ВШЭ Екатерине Бровко и московскому учителю с 30-летним стажем Сергею Райскому. Оба преподавателя проверили «сочинение», отметили некоторые «речевые просчёты», но в целом поставили работе оценку «зачтено», то есть «допустили» искусственный интеллект к сдаче ЕГЭ.

Полный текст работы Михаил Георгиевич приводит в своей статье, в конце которой задаётся несколькими острыми вопросами, в том числе тем, насколько учитывается возможность написания сочинения нейросетью, и есть ли какие-то решения для противодействия подобным фальсификациям.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 2 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 4 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 5 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 6 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 8 ч.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 9 ч.
В Японии порекомендовали добавить в завещания свои логины и пароли 10 ч.
Обновления Windows 11 больше не будут перезагружать ПК, но обычных пользователей это не касается 11 ч.
VK похвасталась успехами «VK Видео» на фоне замедления YouTube 12 ч.
GTA наоборот: полицейская песочница The Precinct с «дозой нуара 80-х» не выйдет в 2024 году 14 ч.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 4 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 4 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 4 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 6 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 9 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 9 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 10 ч.
Грузовик «Прогресс МС-29» улетел к МКС с новогодними подарками и мандаринами для космонавтов 10 ч.
Meta планирует построить за $5 млрд кампус ЦОД в Луизиане 11 ч.
Arm задаёт новый стандарт для ПК, чтобы навязать конкуренцию x86 11 ч.