Сегодня 05 февраля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI представила думающую языковую модель o1

Компания OpenAI представила новую языковую модель o1, обладающую способностью к рассуждению и логически решать задачи. В отличие от предыдущих моделей, o1 способна имитировать человеческий процесс мышления, разбивая сложные задачи на более простые шаги, анализируя разные подходы и исправляя собственные ошибки.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Большая языковая модель (LLM) o1 показала выдающиеся результаты в тестах и соревнованиях, сравнимые с результатами специалистов-людей. По программированию o1 заняла 49-е место на Международной олимпиаде по информатике (IOI) 2024 года и превзошла 89 % людей на платформе Codeforces. По математике o1 вошла в число 500 лучших студентов США на квалификационном этапе Американской математической олимпиады (AIME), продемонстрировав способность решать задачи, предназначенные для самых одарённых школьников, сообщает OpenAI на своём сайте.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В естественных науках модель превзошла результаты докторов и кандидатов наук в сложном тесте GPQA diamond, оценивающем знания в области химии, физики и биологии. «Это не означает, что o1 умнее любого кандидата наук, — поясняют разработчики. — Это говорит о том, что модель способна решать некоторые задачи на уровне высококвалифицированных специалистов».

Модель o1 также продемонстрировала превосходство над предыдущими моделями в различных тестах на интеллект и решение задач, включая MMMU и MMLU. По данным OpenAI, новая модель значительно превосходит предшествующую версию GPT-4o на большинстве задач, связанных с логическим мышлением. «Наши испытания показали, что o1 последовательно улучшает результаты с увеличением объёма ренфорсмент-обучения и времени, потраченного на размышления», — отмечают в компании. В частности, в тестах AIME модель o1 решила в среднем 83 % задач, тогда как результат GPT-4o — 13 %.

Модель о1 значительно меньше галлюцинирует, чем GPT-4o. Однако она медленнее и дороже. Кроме того o1 проигрывает GPT-4o в энциклопедических знаниях и не умеет обрабатывать веб-страницы, файлы и изображения. Кроме того, новая модель может манипулировать данными, подгоняя решение под результат.

Секрет успеха кроется в фундаментально новом алгоритме обучения — «цепочке мыслей». Модель может улучшать эту цепочку, обучаясь по методу «обучение с подкреплением», благодаря которому распознаёт и исправляет свои ошибки, разбивает сложные шаги на более простые и пробует разные подходы в решении задач. Эта методология значительно улучшает способность модели к рассуждению, которая «как и человек может длительное время размышлять перед тем, как ответить на сложный вопрос».

OpenAI уже выпустила предварительную версию модели o1-preview, доступную для использования в ChatGPT и для разработчиков через API. Компания признаёт, что предстоит ещё много работы, чтобы сделать o1 такой же простой в использовании, как и текущие модели. Также подчёркивается безопасность и этичность новой модели, так как её рассуждения можно контролировать, предотвращая потенциально нежелательное поведение. И прежде чем выпустить o1-preview для публичного использования, со стороны OpenAI были проведены тесты на безопасность.

Стоимость использования o1-preview составляет 15 долларов за 1 млн входных токенов и 60 долларов за 1 млн выходных токенов. Для сравнения, GPT-4o предлагает цену в $5 за 1 млн входных токенов и $15 за миллион выходных.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Hugging Face выпустила открытый аналог OpenAI Deep Research для сбора данных из сети 2 ч.
Бывший руководитель Google DeepMind переманивает таланты в Microsoft для работы над ИИ 4 ч.
ЕС выпустил руководство по использованию ИИ, запрещенного «Законом об ИИ» 9 ч.
Age of Mythology: Retold и Age of Empires II: Definitive Edition взяли курс на PS5 10 ч.
«Когда предзаказ оправдывает ожидания»: на релизе Kingdom Come: Deliverance 2 покорила пользователей Steam и побила рекорд первой части 11 ч.
Microsoft напомнила про релиз Avowed в Game Pass, а Starfield возглавила линейку новинок Xbox Game Pass Standard 12 ч.
Meta объявила дату закрытия метавселенной Horizon Worlds, но оставила ей шанс на выживание 13 ч.
Инсайдер раскрыл, когда выйдет Elden Ring Nightreign — официальный анонс даты релиза совсем близко 14 ч.
«Ключевой ингредиент магии»: ретрофутуристическая экшен-RPG от соавтора Dishonored и Prey заручилась поддержкой издателя 14 ч.
Adobe Acrobat получил переводчик с юридического языка на человеческий 15 ч.
Google потратит на развитие вычислительной инфраструктуры в этом году до $75 млрд 2 ч.
Fplus представила реестровый сервер «Союз» SR-222 на процессорах Intel Xeon Emerald Rapids 2 ч.
AMD разочаровала инвесторов слабым прогнозом, акции упали в цене почти на 9 % 4 ч.
Новая статья: Обзор SSD-накопителя Samsung 990 Evo Plus: наконец-то нормальный Evo (а не как в прошлый раз) 9 ч.
Недружелюбное отношение к Канаде может затормозить развитие ИИ ЦОД в США 10 ч.
G.Skill представила модули DDR5 на 16 и 48 Гбайт с низкими задержками и повышенной частотой 11 ч.
Электромобили догнали и перегнали машины с ДВС по долговечности и надёжности, выяснили учёные 12 ч.
NASA ищет частных партнёров для доставки лунохода VIPER на Луну целиком, а не частями 14 ч.
Установлен новый рекорд по предзаказам флагманов Samsung — Galaxy S25 Ultra лидирует с большим отрывом 14 ч.
Китай запустит антимонопольное расследование против Intel — пока это слухи, но акции уже подешевели 16 ч.