Сегодня 07 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI представила o3 — самый умный ИИ в мире, который на 88 % догнал человека

В последний день акции Shipmas, в рамках которой было обещано в течение 12 дней показывать, анонсировать и рассказывать о новых ИИ-функциях, компания OpenAI представила пару больших языковых моделей нового поколения o3 и o3-mini, обладающих способностью рассуждать.

 Источник изображений: OpenAI

Источник изображений: OpenAI

OpenAI отмечает, что речь не идёт о выпуске новых языковых моделей сегодня. Компания пояснила, что обучение этих нейросетей ещё не завершено и окончательный результат их обучения может отличаться от того, о чём она говорит сегодня. В то же время OpenAI принимает заявки исследовательского сообщества на тестирование этих моделей перед их публичным выпуском. Компания ещё не решила, когда это произойдёт.

В сентябре этого года OpenAI запустила думающую ИИ-модель o1 (кодовое название Strawberry). Решение назвать новые модели o3 связано с тем, что таким образом компания решила избежать путаницы (или конфликтов товарных знаков) с британской телекоммуникационной компанией O2.

Термин «рассуждающая модель ИИ» в последнее время стал очень модным в среде разработки технологий искусственного интеллекта и машинного обучения. Однако, по сути, он означает лишь то, что для решения заданного вопроса машина разбивает заданные инструкции на более мелкие задачи. Это в конечном итоге позволяет добиться от неё более точного результата. «Рассуждающие» модели ИИ чаще всего показывают весь процесс решения и то, как ИИ пришёл к тому или иному ответу, а не просто дают окончательный ответ без объяснения.

Как утверждает OpenAI, её новая модель o3 превосходит предыдущие рекорды производительности по всем направлениям. В рамках теста ARC-AGI, который был специально создан для сравнения возможностей искусственного интеллекта с интеллектом человека, модель o3 более чем в три раза превзошла возможности o1, продемонстрировав результат в 88 %.

Новая модель также быстрее предшественника в написании кода (тест SWE-Bench Verified) на 22,8 % и даже превзошла ведущего учёного OpenAI в спортивном программировании.

Модель o3 почти справилась с одним из самых сложных математических тестов, AIME 2024, пропустив в нём лишь один вопрос, а также набрала в бенчмарке GPQA Diamond 87,7 % — значительно больше, чем любой результат человека-эксперта.

В самых сложных математических и логических тестах, которые обычно ставят в тупик любые другие ИИ, o3 решила 25,2 процента задач — результаты других моделей не превышают и двух процентов.

Весомым преимуществом o3, как и o1, является возможность моделей «рассуждать» и эффективно проверять свои же факты, чтобы избегать различного рода ошибок и галлюцинаций. Правда, разработчики из OpenAI заявили, что процесс проверки фактов перед выдачей ответа приводит к небольшой задержке — от нескольких секунд до нескольких минут (зависит от сложности вопроса). Кроме того, задержка связана с тем, что модель определяет, соответствует ли запрос пользователя политике безопасности OpenAI. Компания утверждает, что при тестировании нового алгоритма защиты на o1 она намного лучше следовала правилам безопасности, чем предыдущие модели, включая GPT-4.

И всё же, как отмечают журналисты TechCrunch, основным недостатком «рассуждающих» моделей является то, что для их работы требуется гораздо больше вычислительных мощностей, поэтому в итоге их использование обходится значительно дороже «обычных» решений.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Живые» NPC с ИИ от Nvidia вышли на новый уровень — полезные напарники в PUBG: Battlegrounds и «умные» горожане в Inzoi 23 мин.
Nvidia представила технологию DLSS 4, которая позволит играть в 4K c 240 FPS с качественной картинкой 29 мин.
Google сделает использование телевизора более интуитивным и полезным, подселив нейросети Gemini в Google TV 53 мин.
«В восторге и ужасе одновременно»: новый трейлер подтвердил, когда стартует второй сезон сериала The Last of Us 2 ч.
Sony анонсировала фильм по Helldivers 2, замену сериалу Horizon Zero Dawn от Netflix и ещё одну экранизацию Ghost of Tsushima 4 ч.
Неофициальный ремейк Need for Speed Underground 2 на Unreal Engine 5 получил публичную демоверсию — 20 минут геймплея 14 ч.
Глава OpenAI рассказал, когда появятся сильный ИИ, сопоставимый с человеком — ждать осталось недолго 15 ч.
Геймеры подсчитали, какую игру в 2024 году признавали лучшей чаще всего 16 ч.
Новый геймплейный трейлер раскрыл дату выхода The End of the Sun — мистического приключения про путешествия во времени по миру славянского фэнтези 17 ч.
Гоночная аркада Tokyo Xtreme Racer выйдет на старт раннего доступа Steam уже совсем скоро — состязание скорости и силы воли на дорогах Токио будущего 19 ч.
Nvidia представила платформу Hyperion для полного автопилота и объявила о сотрудничестве с Toyota 8 мин.
ИИ-стартапы собрали рекордные $97 млрд инвестиций в прошлом году 52 мин.
Nvidia представила мобильные видеокарты GeForce RTX 5090, RTX 5080, RTX 5070 Ti и RTX 5070 2 ч.
Представлен обновлённый игровой ноутбук Razer Blade 16 на AMD Ryzen AI и Nvidia GeForce RTX 5000 3 ч.
Nvidia представила настольный ИИ-суперкомпьютер Project Digits на суперчипе Grace Blackwell за $3000 3 ч.
HP представила флагманский бизнес-ноутбук EliteBook Ultra G1i с Core Ultra и весом всего 1195 грамм 4 ч.
Власти США внесли Tencent, CXMT и CATL в чёрный список за работу с китайскими военными 5 ч.
Asus представила мощные игровые ноутбуки ROG Strix Scar 16 и 18 с GeForce RTX 5090 и Intel Arrow Lake-HX 6 ч.
Asus представила игровые ноутбуки ROG Zephyrus G16 и G14 с новейшими чипами Intel и AMD и графикой GeForce RTX 5000 6 ч.
Asus представила игровые ноутбуки ROG Strix G16 и G18 с графикой GeForce RTX 5000 и новейшими чипами Intel и AMD 6 ч.
Включить темный режим