OpenAI выпустила GPT-5.4 — флагманскую LLM с улучшенными навыками работы с компьютером в режиме агента

Читать в полной версии

OpenAI объявила о выходе новой версии модели искусственного интеллекта GPT-5.4. Она, утверждает разработчик, сочетает в себе достижения в области логического мышления, программирования, а также профессиональной работы с текстовыми документами, электронными таблицами и презентациями. Это первая модель компании, изначально поддерживающая выполнение задач на компьютере пользователя и в различных приложениях.

Источник изображения: Zac Wolff / unsplash.com

OpenAI GPT-5.4 — очередной шаг в направлении повсеместного использования ИИ-агентов, способных от лица пользователя выполнять сложные задачи онлайн и управлять ПО. Технологическую основу для этих возможностей компания заложила ещё в прошлом году, когда вышла функция ChatGPT Agent, позволяющая ИИ брать ПК под контроль для выполнения таких задач как, например, закупка продуктов для приготовления блюд.

Модель OpenAI GPT-5.4 уже доступна через API и в приложении для ИИ-программирования Codex, а в ChatGPT дебютировала её рассуждающая версия GPT-5.4 Thinking. Новая GPT-5.4 умеет писать код для управления компьютерами, эмулировать команды мыши и клавиатуры по запросам в виде скриншотов. Она стала эффективнее предшественниц управлять браузерами и обращаться к API сторонних сервисов. Модель лучше справляется с вопросами, предполагающими сбор информации из нескольких источников, умеет производить по нескольку поисковых сессий для определения наиболее релевантных источников, «особенно в вопросах типа „иголка в стоге сена“ и синтезировать данные в ясный, хорошо обоснованный ответ». GPT-5.4 является «самой достоверной моделью на сегодняшний день», уверяет OpenAI — число не соответствующих действительности утверждений сократилось на 33 % в сравнении с GPT-5.2.

При получении сложных запросов рассуждающая GPT-5.4 Thinking предлагает план работы, и пользователь может корректировать свой запрос прямо при получении ответа. «Это упрощает управление моделью для достижения желаемого результата без необходимости начинать всё сначала или производить дополнительные действия», — отметили в OpenAI. Базовая GPT-5.4 уже развёртывается в ChatGPT, Codex и API; рассуждающая GPT-5.4 Thinking будет доступна подписчикам платных тарифов Plus, Team и Pro; через API открыт доступ к мощной GPT-5.4 Pro «для максимальной производительности в решении сложных задач» — с ней также могут работать пользователи с учётными записями ChatGPT Enterprise и Edu.