Сегодня 01 декабря 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Claude 3 Opus сбросила GPT-4 с первого места в рейтинге языковых моделей

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 (модель в основе ChatGPT) от OpenAI на Chatbot Arena — популярной площадке, где пользователи оценивают качество работы чат-ботов. «Король мёртв», — написал в социальной сети X разработчик ПО Ник Добос [Nick Dobos].

 Источник изображения: Anthropic

Источник изображения: Anthropic

Зашедшим на сайт пользователям Chatbot Arena предлагается ввести запрос, после чего демонстрируются два результата от неуказанных языковых моделей — человек должен выбрать, какой результат нравится больше. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Сайт управляется исследовательской организацией Large Model Systems Organization (LMSYS ORG), занимающейся открытыми ИИ-моделями.

«Впервые на вершине рейтинга ИИ-модели не от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дёшево и быстро. Это обнадёживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали её только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).

Сейчас в рейтинге Chatbot Arena представлены четыре версии GPT-4, поскольку с каждым обновлением вывод модели менялся, и некоторые пользователи предпочитают конкретные версии или же пользуются ими всеми для большей стабильности результатов. GPT-4 появилась в Chatbot Arena 10 мая 2023 года, через неделю после запуска рейтинга, и с тех пор различные версии GPT-4 неизменно занимали верхние строчки.

Chatbot Arena ценится исследователями ИИ за возможность более-менее объективно оценить эффективность чат-ботов, что весьма непросто, и ключевым фактором здесь становится множество оценок, складывающихся в общую картину. Субъективные оценки играют немалую роль в сфере ИИ, где разработчик модели может выбрать конкретные показатели в рекламных целях. «Не так давно я долго программировал с использованием ИИ-модели Claude 3 Opus, и она полностью разгромила GPT-4», — написал в X разработчик ПО для ИИ Антон Бакай (Anton Bacaj).

Успех рвущейся к вершинам рейтинга Claude 3 от Anthropic уже подтолкнул некоторых пользователей перейти на неё с GPT-4. Тем временем, набирает популярность Gemini Advanced от Google. Позиции OpenAI пошатнулись, но компания не почивает на лаврах и готовит новые модели, среди которых GPT-5.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Ранний доступ экшена Into the Fire о выживании на разбушевавшемся вулканическом хребте стартует в 2026 году 11 ч.
ИИ-модель Alibaba Qwen3-VL способна уловить почти все детали двухчасового видео, лишь раз его «просмотрев» 13 ч.
Аудитория условно-бесплатного ролевого экшена Where Winds Meet выросла до 9 млн за две недели после релиза 15 ч.
Психологический хоррор The 9th Charnel о группе пропавших учёных-генетиков получил дату релиза 15 ч.
Google отозвала жалобу на Microsoft по поводу антиконкурентной практики Azure псле запуска расследования в ЕС 18 ч.
Кооперативное приключение Split Fiction получило неофициальную русскую озвучку от Mechanics VoiceOver 21 ч.
Сборник хорроров Layers of Fear: The Final Masterpiece Edition от авторов ремейка Silent Hill 2 выйдет на Nintendo Switch 2 уже 19 декабря 22 ч.
Инвесторы не спешат пугаться ИИ-пузыря — деньги в стартапы льются как прежде 23 ч.
Новая статья: Goodnight Universe — колыбельная для крошки. Рецензия 30-11 00:01
Новая статья: Gamesblender № 754: кризис на рынке памяти, Pioner не для российского Steam и 20-летие Xbox 360 29-11 23:39
Sony Bank выпустит в США стейблкоин для упрощения расчётов в экосистеме материнской компании 22 мин.
Новая статья: Компьютер месяца — декабрь 2025 года 8 ч.
Для невышедших Intel Xeon Granite Rapids-WS уже представлена материнская плата Adlink ISB-W890 формата CEB 14 ч.
Вьетнам годами не пускал китайское 5G-оборудование Huawei и ZTE, но новые пошлины США, похоже, заставили власти передумать 14 ч.
AMD случайно подтвердила подготовку Ryzen 7 9850X3D — до анонса осталось чуть больше месяца 15 ч.
Samsung станет крупнейшим производителем телевизоров 20-й год подряд, несмотря на натиск китайских конкурентов 16 ч.
Ускорители вычислений Baidu имеют все шансы стать хитом китайского рынка 24 ч.
SK hynix запустит тотальное расширение фабрик памяти DRAM, чтобы победить дефицит 24 ч.
Micron инвестирует $9,6 млрд в завод по производству памяти HBM в Японии 30-11 00:31
Первый в мире частный научный спутник успешно выведен в космос — он будет изучать звёзды в ультрафиолете 29-11 18:57