Сегодня 31 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ChatGPT научился понимать голосовые команды и работать с изображениями

OpenAI расширила варианты взаимодействия с ChatGPT. Новая версия чат-бота теперь принимает в качестве промтов (подсказок) не только текст, но также изображения и голосовые команды. Для коммерческих пользователей новые возможности станут доступны в ближайшие две недели, а остальным придётся какое-то время подождать.

 Источник изображения: The Verge

Источник изображения: The Verge

Общение голосом с ChatGPT в чём-то похоже на разговор с любым голосовым помощником, но, по утверждению OpenAI, качество ответов значительно выше благодаря улучшенной базовой технологии. Пользователь нажимает кнопку и произносит вопрос, ChatGPT преобразует его в текст и передаёт в большую языковую модель, получает ответ, преобразует его обратно в речь и произносит ответ вслух.

Новые возможности ChatGPT опираются на большую языковую модель Whisper, которая выполняет значительную часть работы по преобразованию речи в текст и обратно. По утверждению OpenAI, новая модель может генерировать «человеческий голос из текста и образца речи длиной в несколько секунд». Пока доступно пять вариантов голоса ChatGPT, но OpenAI видит в этой модели гораздо больший потенциал.

Возможность создать синтезированный голос любого человека, опираясь всего на несколько секунд его речи, даёт широкое поле деятельности для киберпреступников, признаёт OpenAI в анонсе новых функций: «Это новые риски, такие как возможность злоумышленников выдать себя за общественных деятелей или совершить мошенничество». По утверждению компании, модель недоступна для широкого использования именно по этой причине: OpenAI планирует ограничить модель конкретными вариантами использования и партнёрскими соглашениями.

Что касается запроса в ChatGPT при помощи изображения, пользователю достаточно сфотографировать или нарисовать предмет своего интереса и отправить боту. В процессе общения можно применять текстовые или голосовые подсказки, чтобы уточнить запрос или ограничить область поиска.

Очевидно, что использование изображений в качестве подсказки для чат-бота также имеет свои потенциальные проблемы. В первую очередь это касается запроса о личности человека на фотографии, хотя OpenAI заявляет, что ограничила «способность ChatGPT анализировать и делать прямые заявления о людях» как по соображениям точности, так и по соображениям конфиденциальности.

Спустя почти год после первого запуска ChatGPT OpenAI продолжает расширять границы применения и использования своего чат-бота, пытаясь избежать связанных с ним проблем и недоработок. В частности, компания намеренно ограничивает возможности своих новых ИИ-моделей. Но такой подход не будет работать вечно. По мере того, как все больше людей используют голосовое управление и поиск изображений, а ChatGPT становится мультимодальным и полезным виртуальным помощником, удерживать ИИ в рамках будет все труднее и труднее.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Meta может начать использовать ИИ-модели Google и OpenAI в своих приложениях 2 ч.
Белый дом приказал вернуть ИИ-бота xAI Grok «как можно скорее» 4 ч.
Команда специалистов Meta по ИИ, на которую Цукерберг потратил миллиарды долларов, уже трещит по швам 5 ч.
Новая статья: Is This Seat Taken? — все когда-нибудь сядут. Рецензия 12 ч.
Meta без спроса заполонила свои соцсети ИИ-двойниками Тейлор Свифт, Скарлетт Йоханссон и других знаменитостей 18 ч.
Стартап Илона Маска обвинил бывшего сотрудника в краже секретов для OpenAI 22 ч.
xAI Илона Маска представила ИИ для программирования, который отвечает мгновенно 22 ч.
Тестирование крупного обновления Windows 11 25H2 вышло на финишный этап 24 ч.
ЕС всё же оштрафует Google за антиконкурентное поведение, но наказание будет скромным 30-08 10:43
Meta исправила методику обучения ИИ после скандала с неуместными разговорами с подростками 30-08 10:23
Samsung анонсировала 37-дюймовый монитор ViewFinity S8 с поддержкой 4K, USB Type-C на 90 Вт и встроенным KVM-переключателем 18 мин.
SK hynix серьёзно приблизилась к Samsung по величине выручки на рынке NAND во втором квартале 3 ч.
Samsung готова усилить собственные разработки ИИ-моделями с открытым исходным кодом 4 ч.
Samsung добавила ИИ-помощника Microsoft Copilot в свои новые телевизоры 4 ч.
Доля электромобилей на рынке Китая достигла 31 %, а с учётом гибридов перевалила за 50 % 4 ч.
В блистающих останках умирающей звезды «Джеймс Уэбб» увидел, как могла зарождаться Земля 15 ч.
Nvidia захватила почти четверть рынка GPU для ПК — лидирует Intel, а доля AMD сжалась до 14 % 20 ч.
Realme не будет выпускать складные смартфоны, а сделает ставку на флагманы и пауэрбанки 24 ч.
Китайские учёные создали «всечастотный» чип для 6G — 100 Гбит/с почти в любых условиях 24 ч.
Intel избавилась от части обязательств перед США по «Закону о чипах» 30-08 07:53