Сегодня 13 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → openai

ChatGPT научился понимать голосовые команды и работать с изображениями

OpenAI расширила варианты взаимодействия с ChatGPT. Новая версия чат-бота теперь принимает в качестве промтов (подсказок) не только текст, но также изображения и голосовые команды. Для коммерческих пользователей новые возможности станут доступны в ближайшие две недели, а остальным придётся какое-то время подождать.

 Источник изображения: The Verge

Источник изображения: The Verge

Общение голосом с ChatGPT в чём-то похоже на разговор с любым голосовым помощником, но, по утверждению OpenAI, качество ответов значительно выше благодаря улучшенной базовой технологии. Пользователь нажимает кнопку и произносит вопрос, ChatGPT преобразует его в текст и передаёт в большую языковую модель, получает ответ, преобразует его обратно в речь и произносит ответ вслух.

Новые возможности ChatGPT опираются на большую языковую модель Whisper, которая выполняет значительную часть работы по преобразованию речи в текст и обратно. По утверждению OpenAI, новая модель может генерировать «человеческий голос из текста и образца речи длиной в несколько секунд». Пока доступно пять вариантов голоса ChatGPT, но OpenAI видит в этой модели гораздо больший потенциал.

Возможность создать синтезированный голос любого человека, опираясь всего на несколько секунд его речи, даёт широкое поле деятельности для киберпреступников, признаёт OpenAI в анонсе новых функций: «Это новые риски, такие как возможность злоумышленников выдать себя за общественных деятелей или совершить мошенничество». По утверждению компании, модель недоступна для широкого использования именно по этой причине: OpenAI планирует ограничить модель конкретными вариантами использования и партнёрскими соглашениями.

Что касается запроса в ChatGPT при помощи изображения, пользователю достаточно сфотографировать или нарисовать предмет своего интереса и отправить боту. В процессе общения можно применять текстовые или голосовые подсказки, чтобы уточнить запрос или ограничить область поиска.

Очевидно, что использование изображений в качестве подсказки для чат-бота также имеет свои потенциальные проблемы. В первую очередь это касается запроса о личности человека на фотографии, хотя OpenAI заявляет, что ограничила «способность ChatGPT анализировать и делать прямые заявления о людях» как по соображениям точности, так и по соображениям конфиденциальности.

Спустя почти год после первого запуска ChatGPT OpenAI продолжает расширять границы применения и использования своего чат-бота, пытаясь избежать связанных с ним проблем и недоработок. В частности, компания намеренно ограничивает возможности своих новых ИИ-моделей. Но такой подход не будет работать вечно. По мере того, как все больше людей используют голосовое управление и поиск изображений, а ChatGPT становится мультимодальным и полезным виртуальным помощником, удерживать ИИ в рамках будет все труднее и труднее.

Microsoft интегрирует в Bing продвинутый ИИ-генератор изображений DALL-E 3

Компания Microsoft сообщила, что интегрирует генератор изображений DALL-E 3 на базе искусственного интеллекта, разработанный компанией OpenAI, в собственный ИИ-чат-бот Bing.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Представленный на днях генератор изображений DALL-E 3, который в октябре появится в составе чат-бота ChatGPT (точнее в его платных версиях Plus и Enterprise), лучше понимает запросы пользователей и более точно генерирует изображения по сравнению с моделью DALL-E 2. В Microsoft не уточнили, когда именно DALL-E 3 появится в составе Bing.

В компании также сообщили, что добавили в поисковик Bing новую функцию для шопинга. Bing может задавать пользователем вопросы о том, как они планируют использовать тот или иной продукт, а также более персонализированные вопросы, чтобы в конечном итоге подобрать максимально правильный товар, подходящий под запросы и нужды пользователя. Система также позволит искать и использовать скидочные коды.

Microsoft одной из первых интегрировала ИИ-технологии OpenAI в свой поисковик Bing. С помощью новых функций компания стремится усилить поисковую платформу. С февраля этого года в Bing присутствует чат-бот, который может отвечать на вопросы пользователя, искать новости, создавать тщательно подобранные руководства по покупке и многое другое.

Представлен ИИ-генератор изображений DALL-E 3 — он лучше понимает людей и скоро будет встроен в ChatGPT

Компания OpenAI представила новую версию генератора изображений DALL-E и заявила о планах интегрировать его в ChatGPT. Разработчики сообщают, что DALL-E 3 может «значительно лучше понимать запросы», анализировать сложные инструкции и генерировать «чрезвычайно детальные и точные изображения» по сравнению с DALL-E 2.

 Источник изображений: OpenAI / DALL-E 3

Источник изображений: OpenAI / DALL-E 3

«Современные генераторы изображений имеют тенденцию игнорировать слова или описания, вынуждая пользователей изучать промпт-инженерию. DALL-E 3 представляет собой шаг вперёд в нашей способности создавать изображения, которые точно соответствуют предоставленному вами запросу», — сообщает OpenAI в описании нового генератора изображений.

Модель лучше справляется и с такими сложными для искусственного интеллекта мелкими деталями, как человеческие руки. Даже при одинаковых запросах результаты DALL-E 3 намного лучше, чем у DALL-E 2, отмечают разработчики. DALL-E 3 сможет точно отобразить сцену с конкретными объектами и учесть, как они друг с другом связаны, как показано на изображении ниже.

OpenAI планирует в ближайшем будущем встроить DALL-E 3 в чат-бот ChatGPT Plus и Enterprise. Комбинация языковых навыков чат-бота с генератором изображений позволит создавать ещё более точные изображения и предоставит ещё больше возможностей в тонкой настройке запроса, если первый полученный результат окажется не тем, чего ожидал пользователь.

«При запросе ChatGPT автоматически сгенерирует индивидуальные подробные подсказки для DALL-E 3, на основе которых тот создаст изображение. Если полученное изображение понравится пользователю, но оно не совсем точно будет отображать запрос, то в него можно будет внести изменения, добавив всего несколько дополнительных уточняющих слов», — говорят в OpenAI

Сейчас DALL-E 3 находится на стадии исследовательской предварительной версии и станет доступен подписчикам ChatGPT Plus и Enterprise в октябре через API. Следует напомнить, что использование DALL-E 2 платное, а месячная подписка на тот же ChatGPT Plus стоит $20. В настоящий момент единственным крупным ИИ-чат-ботом, предлагающим бесплатный встроенный генератор изображений, является Bing Chat AI от Microsoft. Он, к слову, работает на базе мощной языковой модели GPT-4 от OpenAI.

«Как и в случае с DALL-E 2, сгенерированные с помощью DALL-E 3 изображения будут принадлежать пользователю, и ему не потребуется разрешение на их перепечатку, продажу или распространение», — уточняют в OpenAI.

В компании также отметили, что в DALL-E 3 предусмотрены инструменты, ограничивающие создание определённых изображений. Например, генератор изображений будет отклонять запросы с именами общественных деятелей или «вредными предубеждениями», чтобы снизить риск распространения пропаганды и дезинформации. Разработчики также тестируют классификатор происхождения — инструмент, который позволит определить, было ли изображение сгенерировано нейросетью. Наконец, DALL-E не будет генерировать картинки в стиле ныне живущих и творящих художников.

Джордж Мартин и другие писатели подали в суд на создателя ChatGPT за нарушение авторских прав

Все больше авторов присоединяются к иску против OpenAI за нарушение авторских прав путём использования их книг для обучения больших языковых моделей искусственного интеллекта. Гильдия авторов и 17 известных писателей, среди которых Джонатан Франзен (Jonathan Franzen), Джон Гришэм (John Grisham), Джордж Р. Р. Мартин (George R.R. Martin) и Джоди Пиколт (Jodi Picoult), подали в суд Южного округа Нью-Йорка жалобу, которая, как они надеются, будет классифицирована как групповой иск.

 Источник изображений: Pixabay

Источник изображений: Pixabay

Согласно жалобе, OpenAI «копировала работы истцов оптом, без разрешения и рассмотрения» и использовала защищённые авторским правом материалы для обучения больших языковых моделей. «Заработок авторов зависит от произведений, которые они создают. Но большие языковые модели Ответчика ставят под угрозу способность писателей-фантастов зарабатывать на жизнь, поскольку позволяют любому создавать — автоматически и бесплатно (или очень дёшево) — текст, за создание которого в противном случае он заплатил бы писателям», — говорится в иске.

Авторы добавили, что использование ИИ OpenAI для написания книг может привести к созданию производных работ, «которые основаны на их книгах, имитируют, обобщают или перефразируют». OpenAI, говорится в жалобе, могла бы обучить свою большую языковую модель на произведениях, находящихся в общественном достоянии, вместо того, чтобы использовать материалы, защищённые авторским правом, без уплаты лицензионного сбора.

Это уже не первый иск против OpenAI от популярных авторов о нарушении авторских прав. Писатель Майкл Чабон (Michael Chabon) совместно с несколькими другими авторами подали в суд на компанию за использование их книг для обучения ИИ в начале сентября. Комик Сара Сильверман (Sarah Silverman) и авторы Кристофер Голден (Christopher Golden) и Ричард Кадри (Richard Kadrey) подали иск сразу против OpenAI и Meta, а Пол Трембле (Paul Tremblay) и Мона Авад (Mona Awad) подали аналогичную жалобу ещё в июне.

Компаниям, занимающимся генеративным ИИ, пришлось столкнуться с сопротивлением со стороны владельцев авторских прав, при этом иски также были поданы против платформ генерации изображений при помощи ИИ. Microsoft, финансирующая OpenAI, объявила, что берёт на себя юридическую защиту коммерческих пользователей её сервиса Copilot AI, если на них подадут в суд за нарушение авторских прав.

Групповой иск к OpenAI о нарушении конфиденциальности был отозван по неизвестной причине

Истцы по групповому иску, утверждавшему, что OpenAI нарушила право на конфиденциальность при сборе данных для обучения своих систем искусственного интеллекта, отказались от иска против компании. Из доступных судебных документов следует, что дело было прекращено без каких-либо необоснованных предвзятых суждений и иск в дальнейшем может быть подан повторно.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В коллективном иске, поданном в июне этого года в Северном округе Калифорнии юридической фирмой Clarkson, утверждалось, что сканирующий бот OpenAI «нарушил права собственности и права на неприкосновенность частной жизни всех лиц, чья личная информация была извлечена, а затем включена путём незаконного присвоения в продукты OpenAI». В иске не фигурируют имена истцов, поскольку они были скрыты за инициалами.

OpenAI, как и другие компании, занимающиеся генеративным искусственным интеллектом, собирает общедоступные данные из Интернета, чтобы улучшить обучение своих больших языковых моделей. В июле Федеральная торговая комиссия начала расследование в отношении OpenAI на предмет возможного вреда потребителям в результате сбора данных и публикации ложной информации.

В августе OpenAI заявила, что владельцы сайтов теперь могут блокировать её веб-сканер. Некоторые интернет-ресурсы, в том числе новостные издания, такие как The New York Times, уже заблокировали для OpenAI возможность сбора данных со своих серверов.

Вопросы о том, как компании, занимающиеся генеративным искусственным интеллектом, такие как OpenAI, собирают и используют общедоступные данные для обучения своих моделей, привели к нескольким судебным искам. Но большинство дел вращаются вокруг щекотливого вопроса авторских прав, а не прав на неприкосновенность частной жизни. В частности, некоторые известные авторы подали в суд на OpenAI и Meta за якобы нарушение авторских прав при обучении их больших языковых моделей GPT-4 и Llama 2.

OpenAI открыла первый офис в ЕС — поначалу он займётся решением правовых вопросов в регионе

OpenAI, разработчик ChatGPT, открывает офис в Дублине и опубликовала вакансии, связанные с юридическими вопросами, конфиденциальностью и связями со СМИ. Офис компании в Дублине станет третьим после штаб-квартир в Сан-Франциско и Лондоне и первым на территории ЕС. Ирландия за последние годы стала практически «вторым домом» для многочисленных американских IT-компаний, стремящихся наладить связи с европейскими законодателями и клиентами, и оптимизировать издержки.

 Источник изображения: OpenAI

Источник изображения: OpenAI

OpenAI в настоящее время разместила 9 вакансий для сотрудников нового офиса. Их названия косвенно указывают на первоочередные задачи, стоящие перед новым подразделением. Помимо должностей, связанных с расчётом заработной платы и работой с клиентами, компания нанимает помощника генерального юрисконсульта в регионе EMEA, специалиста по глобальной политике и партнёрству, менеджера программы конфиденциальности, инженера-программиста по безопасности и менеджера по связям со СМИ.

OpenAI столкнулась с серьёзным противодействием в отношении ChatGPT, её чат-бота на базе генеративного ИИ. Например, Италия ещё в марте потребовала заблокировать ChatGPT из-за проблем с защитой данных, незаконной обработки персональных данных и отсутствия достаточных мер защиты для несовершеннолетних. Испания последовала этому примеру, несмотря на то, что OpenAI перезапустила ChatGPT в Италии, изменив настройки конфиденциальности и контроля.

Недавно к претензиям в адрес OpenAI присоединилась Польша, обвинив компанию в многочисленных нарушениях защиты данных. Польский регулятор утверждает, что OpenAI нарушает Общее положение о защите данных (GDPR) в таких областях, как прозрачность, доступ к данным, юридическое обоснование доступа, справедливость и конфиденциальность. Хотя возможно, что поводом для польских претензий стал отказ от планов по размещению офиса OpenAI в этой стране.

Очевидно, что Европа станет основным центром внимания для компаний, работающих в сфере ИИ. Закон ЕС об искусственном интеллекте пока находится в разработке, но после принятия он станет важнейшим нормативным актом в области ИИ и послужит примером для других стран.

Ранее в этом году генеральный директор OpenAI Сэм Альтман (Sam Altman) провёл несколько встреч с европейскими регуляторами, пытаясь предостеречь их от слишком жёсткого регулирования ИИ, несмотря на то, что недавно регулирующие органы США заявили о необходимости международного регулирующего органа для ИИ.

OpenAI собирается показать Брюсселю, насколько серьёзно она относится к вопросам конфиденциальности и соблюдению законодательства ЕС, хотя её текущие усилия в Европе меркнут по сравнению с миллионами, которые потратили на лоббирование такие компании, как Meta, Alphabet и Microsoft.


window-new
Soft
Hard
Тренды 🔥
В свежем топ-10 самых продаваемых смартфонов оказалось пять iPhone, четыре Galaxy и Xiaomi Redmi 14C 6 ч.
Китайские учёные запихнули ДНК в кассету и создали накопитель нового поколения ёмкостью до 36 Пбайт 6 ч.
Nintendo воскресила провальную VR-консоль Virtual Boy из 1995 года, но теперь это аксессуар для Switch 6 ч.
Облачные Mac'и с Nitro: AWS запустила инстансы EC2 M4 Mac и M4 Pro Mac 8 ч.
Затраты на строительство дата-центров в США бьют рекорды 9 ч.
Microsoft расширит вычислительные мощности для обучения собственных ИИ-моделей 9 ч.
Разработана технология производства сверхминиатюрных чипов с использованием B-EUV-литографии 10 ч.
Власти США добавили в «чёрный список» две китайские компании, через которые SMIC обходила санкции 14 ч.
The Boring Company приостановила прокладку туннеля в районе Лас-Вегаса после инцидента с травмой рабочего 15 ч.
Европейские электромобили превращаются в повербанки на колёсах — это делает их эксплуатацию выгоднее 15 ч.