Компания OpenAI может вскоре представить цифрового помощника с поддержкой мультимодального искусственным интеллектом. Как сообщает ресурс The Information, новый ассистент OpenAI способен даже распознать сарказм.
По данным источников The Information, OpenAI продемонстрировала ряду клиентов новую мультимодальную ИИ-модель, способную как вести диалог с пользователем, так и распознавать объекты. Не исключено, что она будет представлена завтра, 13 мая, на мероприятии, которое начнётся в 20:00 мск.
Новая модель обеспечивает более быструю и точную интерпретацию изображений и аудио по сравнению с существующими ИИ-моделями для транскрипции или преобразования текста в речь. Как предполагает The Information, она может помочь сотрудникам службы поддержки клиентов «лучше понимать интонацию голосов звонящих или то, саркастичны ли они». «Теоретически» модель может помочь студентам в решении задач по математике или переводе реальных обозначений. По словам источников ресурса, новая ИИ-модель может превзойти GPT-4 Turbo в «ответах на некоторые типы вопросов», но все же будет более склонна к ошибочным решениям.
По словам разработчика Ананая Ароры (Ananay Arora), OpenAI также готовится добавить чат-боту ChatGPT функцию телефонных звонков. Арора утверждает, что нашёл доказательства того, что OpenAI уже предусмотрела использование серверов для аудио- и видеосвязи в реальном времени.
Следует отметить, что этой функции не будет у модели GPT-5, если её вдруг представят на следующей неделе, поскольку гендиректор Сэм Альтман (Sam Altman) отрицает тот факт, что предстоящее мероприятие будет иметь какое-либо отношение к последователю ИИ-модели GPT-4. Он также опроверг слухи о том, что компания на следующей неделе представит новую поисковую систему на базе ИИ.
Источник: