Сегодня 19 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Claude 3 Opus сбросила GPT-4 с первого места в рейтинге языковых моделей

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 (модель в основе ChatGPT) от OpenAI на Chatbot Arena — популярной площадке, где пользователи оценивают качество работы чат-ботов. «Король мёртв», — написал в социальной сети X разработчик ПО Ник Добос [Nick Dobos].

 Источник изображения: Anthropic

Источник изображения: Anthropic

Зашедшим на сайт пользователям Chatbot Arena предлагается ввести запрос, после чего демонстрируются два результата от неуказанных языковых моделей — человек должен выбрать, какой результат нравится больше. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Сайт управляется исследовательской организацией Large Model Systems Organization (LMSYS ORG), занимающейся открытыми ИИ-моделями.

«Впервые на вершине рейтинга ИИ-модели не от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дёшево и быстро. Это обнадёживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали её только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).

Сейчас в рейтинге Chatbot Arena представлены четыре версии GPT-4, поскольку с каждым обновлением вывод модели менялся, и некоторые пользователи предпочитают конкретные версии или же пользуются ими всеми для большей стабильности результатов. GPT-4 появилась в Chatbot Arena 10 мая 2023 года, через неделю после запуска рейтинга, и с тех пор различные версии GPT-4 неизменно занимали верхние строчки.

Chatbot Arena ценится исследователями ИИ за возможность более-менее объективно оценить эффективность чат-ботов, что весьма непросто, и ключевым фактором здесь становится множество оценок, складывающихся в общую картину. Субъективные оценки играют немалую роль в сфере ИИ, где разработчик модели может выбрать конкретные показатели в рекламных целях. «Не так давно я долго программировал с использованием ИИ-модели Claude 3 Opus, и она полностью разгромила GPT-4», — написал в X разработчик ПО для ИИ Антон Бакай (Anton Bacaj).

Успех рвущейся к вершинам рейтинга Claude 3 от Anthropic уже подтолкнул некоторых пользователей перейти на неё с GPT-4. Тем временем, набирает популярность Gemini Advanced от Google. Позиции OpenAI пошатнулись, но компания не почивает на лаврах и готовит новые модели, среди которых GPT-5.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: South of Midnight — соткана по лекалам. Рецензия 4 ч.
Спустя восемь лет «беты» Escape from Tarkov взяла курс на версию 1.0 — план обновлений игры на 2025 год 6 ч.
ChatGPT научился использовать воспоминания о пользователе для персонализации веб-поиска 6 ч.
Создатели следующей Battlefield рассказали о новом «языке разрушения» и показали его в деле 7 ч.
Глава Microsoft Gaming Фил Спенсер намекнул на продолжение Indiana Jones and the Great Circle 8 ч.
Разработчики Everspace 2 решили снизить цену на дополнение Wrath of the Ancients, потому что «вокруг дорожает буквально всё» 9 ч.
Google обжалует «неблагоприятное» решение суда о признании её монополистом в интернет-рекламе 10 ч.
84 % россиян выходят в интернет каждый день, подсчитал Mediascope 10 ч.
Cloud.ru представил первый в России управляемый облачный сервис для инференса ИИ-моделей — Evolution ML Inference 12 ч.
Автор Loretta раскрыл дату выхода новой игры — хоррор-стратегии Anoxia Station про погоню за нефтью в недрах умирающей Земли 14 ч.
Western Digital начала добывать редкоземельные и драгоценные металлы из жёстких дисков 6 ч.
HP отделалась выплатой $4 млн по иску о завышенных ценах и фиктивных скидках 9 ч.
Xiaomi представила компактный домашний проектор Redmi 3 Lite за $100 9 ч.
Nintendo Switch 2 избежала подорожания, несмотря на новые пошлины США — аксессуары тем же похвастаться не могут 10 ч.
Western Digital запустила в США масштабную программу извлечения редкоземельных элементов из HDD — уже переработано почти 23 т дисков Microsoft 11 ч.
Физики обнаружили аномальный эффект Холла в неожиданном месте 12 ч.
Из-за политики США европейские пользователи задумались об уходе из американских облаков 12 ч.
Продажи российского электромобиля Lada e-Largus выросли до одного экземпляра в первом квартале 12 ч.
Intel расследует падение производительности видеокарт Arc при работе со старыми CPU 13 ч.
Китайская EHang пообещала запустить сервис летающих такси по разумной цене до конца года 13 ч.