OpenAI намерена превратить ChatGPT в суперприложение, и сейчас в разработке находится очередная масштабная модернизация. Важнейшим компонентом обновления станет помощник программиста OpenAI Codex и инструменты агентов искусственного интеллекта. Кроме того, в приложении обнаружена двунаправленная аудиомодель GPT Bidi 1, призванная улучшить голосовые функции ChatGPT.
Источник изображения: BoliviaInteligente / unsplash.com
Название Bidi, как сообщается, означает «двунаправленный механизм» (bidirectional design), позволяющий ИИ слушать пользователя и одновременно говорить. Упоминания Bidi 1 обнаружены ещё на прошлой неделе — в коде модель характеризуется как «значительный скачок в интеллекте» и «голосовой интерфейс нового поколения». Bidi 1 будет доступна в списке выбора моделей наравне со стандартными и расширенными опциями; при её выборе значок «пузыря» становится жёлтым.
Источник изображения: x.com/testingcatalog
Новая модель уже начала развёртываться в приложениях некоторых пользователей, и официального её выхода можно ожидать на текущей неделе, утверждают авторы ресурса TestingCatalog. Она поддерживает простые и естественные подтверждения, например, простое «окей», когда пользователь делает паузу или замедляет разговор, не прерывая его. Она также умеет переключаться между задачами на лету: модель можно попросить посчитать до десяти, прервать, чтобы изменить счёт — и та адаптируется.
Важнейшим изменением станет то, что модель сохраняет нить всего разговора, не теряя предыдущего контекста, что было слабым местом ChatGPT. Она не пытается забить длительные паузы своими ответами. Bidi 1 можно рассматривать как возможность для OpenAI сократить разрыв между шагнувшими далеко вперёд текстовыми моделями и устаревшими голосовыми функциями. Компания делает ставку на то, что основным интерфейсом для большинства пользователей станет голос, а не текст. Официального анонса Bidi 1 пока не было, и подробной информации о новой GPT 5.6 разработчик пока не представил.