Сегодня 17 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI выпустила GPT-Realtime-2 и ещё две голосовые модели, но доступны они лишь через API

Компания OpenAI объявила о включении в API ряда новых возможностей голосового интеллекта, призванных помочь разработчикам создавать приложения, способные «говорить», расшифровывать и переводить разговоры с пользователями.

 Источник изображения: Zac Wolff/unsplash.com

Источник изображения: Zac Wolff/unsplash.com

В частности, разработчикам через API Realtime теперь доступны три новые модели голосового управления в реальном времени — GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Новые модели поддерживают более естественное голосовое взаимодействие, перевод в реальном времени и транскрипцию речи в текст с низкой задержкой.

Модель GPT-Realtime-2 создана для голосового взаимодействия в реальном времени, обладая способностью анализировать запросы, вызывать инструменты, обрабатывать исправления и естественно продолжать разговор. В отличие от своей предшественницы GPT-Realtime-1.5, эта модель построена на основе логики класса GPT-5, разработанной для обработки более сложных запросов от пользователей.

GPT-Realtime-2 включает в себя следующие новые возможности для голосовых агентов:

  • Преамбулы: разработчик может добавить короткие фразы, например, «позвольте мне это проверить», перед завершением ИИ-агентом задачи.
  • Параллельные вызовы инструментов: модель может использовать сразу несколько инструментов одновременно, информируя пользователя.
  • Улучшенное восстановление: модель может более корректно реагировать на ошибки, вместо того чтобы завершать работу без комментариев.
  • Расширенный контекст: контекстное окно увеличено с 32K до 128K.
  • Улучшенное понимание предметной области: модель лучше запоминает специализированные термины, имена собственные и лексику, связанную со здравоохранением.
  • Управление тоном: модель может корректировать интонацию в зависимости от ситуации.
  • Регулируемый уровень сложности рассуждения: разработчики могут выбирать между минимальным, низким, средним, высоким и сверхвысоким уровнями.

Модель GPT-Realtime-Translate предназначена для предоставления услуг перевода в реальном времени, «поддерживая темп» разговора с пользователем. Модель поддерживает более 70 языков ввода (то есть языков, которые она может понимать) и 13 языков вывода (языков, которые она передает говорящему). Сообщается, что модель может сохранять смысл, подстраиваясь под говорящего, даже когда пользователи меняют контекст, используют региональное произношение или специфическую для предмета лексику.

Модель GPT-Realtime-Whisper — потоковая модель транскрипции, созданная для преобразования речи в текст с низкой задержкой.

«Запускаемые нами модели переводят аудио в реальном времени из простого диалога в голосовые интерфейсы, которые действительно могут работать: слушать, рассуждать, переводить, транскрибировать и предпринимать действия по мере развития разговора», — сообщила компания.

Стоимость GPT-Realtime-2 составляет $32 за 1 млн входных аудиотокенов, $0,40 за 1 млн кешированных входных токенов и $64 за 1 млн выходных аудиотокенов. Стоимость GPT-Realtime-Translate составляет $0,034 в минуту, а GPT-Realtime-Whisper — $0,017 в минуту. Разработчики могут опробовать новые модели на онлайн-платформе OpenAI Playground.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Спустя четыре года апгрейд GTA V до версий для PS5, Xbox Series X и S всё-таки станет бесплатным 3 мин.
Создатели хоррор-шутера Luna Abyss остались без работы через месяц после релиза — всех уволили 40 мин.
Внезапная блокировка Anthropic Fable 5 подстегнула интерес к открытым ИИ-моделям 2 ч.
Голосовые сообщения в WhatsApp можно будет отправлять не открывая приложение — прямо из виджета 3 ч.
Telegram через суд обжаловал блокировку в Индии 4 ч.
Windows 11 избавится от лишних перезагрузок: обновления будут устанавливаться за один цикл 6 ч.
«Минимальные усилия, но максимальный эффект»: Digital Foundry показала, как Sony может прокачать Bloodborne на PS5 без FromSoftware 6 ч.
CATL и Tencent стали инвесторами DeepSeek, но больше всех вложился основатель стартапа 6 ч.
Союзники США восстали против ограничений на ИИ: Европа добивается доступа к Mythos и другим моделям Anthropic 6 ч.
ИИ и массовые увольнения довели моральный дух сотрудников Meta до исторического минимума 6 ч.
Nvidia показала роботов, которые сами научились собирать ПК — но почему-то дорогие видеокарты им не доверила 2 ч.
Китай проследит, как ИИ отнимает и создаёт рабочие места 2 ч.
Silicon Motion будет внедрять PCIe 6.0 в SSD с оглядкой на процессоры Nvidia, а не Intel или AMD 2 ч.
Тяжёлая ракета Ariane 6 впервые стартовала в самой мощной конфигурации — она вывела на орбиту спутники Amazon Leo 2 ч.
«Мегафон» связал Россию и Китай новым магистральным каналом связи 2 ч.
«Я собираюсь красть ваших клиентов»: глава Nothing объявил войну Apple из-за слишком скучных iPhone 3 ч.
IDC: на x86 теперь приходится лишь чуть более половины рынка серверов, в основном из-за ИИ 3 ч.
Представлен человекоподобный робот Genesis Eno, непохожий на человека 4 ч.
NASA модернизировало квантовую лабораторию на МКС — эксперименты с холодными атомами выйдут на новый уровень 4 ч.
США снимут запрет на ввоз китайских дронов, но только игрушечных 5 ч.