Сегодня 19 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → anthropic

Claude 3 Opus сбросила GPT-4 с первого места в рейтинге языковых моделей

Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 (модель в основе ChatGPT) от OpenAI на Chatbot Arena — популярной площадке, где пользователи оценивают качество работы чат-ботов. «Король мёртв», — написал в социальной сети X разработчик ПО Ник Добос [Nick Dobos].

 Источник изображения: Anthropic

Источник изображения: Anthropic

Зашедшим на сайт пользователям Chatbot Arena предлагается ввести запрос, после чего демонстрируются два результата от неуказанных языковых моделей — человек должен выбрать, какой результат нравится больше. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Сайт управляется исследовательской организацией Large Model Systems Organization (LMSYS ORG), занимающейся открытыми ИИ-моделями.

«Впервые на вершине рейтинга ИИ-модели не от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дёшево и быстро. Это обнадёживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали её только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).

Сейчас в рейтинге Chatbot Arena представлены четыре версии GPT-4, поскольку с каждым обновлением вывод модели менялся, и некоторые пользователи предпочитают конкретные версии или же пользуются ими всеми для большей стабильности результатов. GPT-4 появилась в Chatbot Arena 10 мая 2023 года, через неделю после запуска рейтинга, и с тех пор различные версии GPT-4 неизменно занимали верхние строчки.

Chatbot Arena ценится исследователями ИИ за возможность более-менее объективно оценить эффективность чат-ботов, что весьма непросто, и ключевым фактором здесь становится множество оценок, складывающихся в общую картину. Субъективные оценки играют немалую роль в сфере ИИ, где разработчик модели может выбрать конкретные показатели в рекламных целях. «Не так давно я долго программировал с использованием ИИ-модели Claude 3 Opus, и она полностью разгромила GPT-4», — написал в X разработчик ПО для ИИ Антон Бакай (Anton Bacaj).

Успех рвущейся к вершинам рейтинга Claude 3 от Anthropic уже подтолкнул некоторых пользователей перейти на неё с GPT-4. Тем временем, набирает популярность Gemini Advanced от Google. Позиции OpenAI пошатнулись, но компания не почивает на лаврах и готовит новые модели, среди которых GPT-5.

Amazon.com инвестирует в ИИ-стартап Anthropic дополнительно $2,75 млрд

Amazon.com Inc. дополнительно инвестирует в ИИ-стартап Anthropic, созданный в 2021 году бывшими сотрудниками OpenAI, $2,75 млрд в рамках сделки, заключённой в прошлом году, пишет агентство Bloomberg. Общий объём инвестиций Amazon в Anthropic с учётом этой суммы, а также инвестиций, объявленных компанией в сентябре прошлого года, достигнет $4 млрд. В рамках сделки Amazon имела право на дополнительные инвестиции в виде конвертируемых векселей при условии, что она сделает это до конца марта.

 Источник изображения: Amazon.com

Источник изображения: Amazon.com

Сделкой предусмотрено использование стартапом ЦОД компании Amazon Web Services для обеспечения некоторых своих операций, а также специализированных процессоров AWS. Следует отметить, что Anthropic также взял на себя обязательство использовать чипы Google. В мае прошлого года Google присоединилась к раунду финансирования Anthropic, который возглавила Spark Capital, на сумму в $450 млн. Google и AWS являются партнёрами Anthropic по облачным вычислениям.

Anthropic создала чат-бот Claude на базе искусственного интеллекта. В марте этого года вышла версия Claude 3, опередившая в ряде бенчмарков аналоги от OpenAI. Входящие в семейство Claude 3 модели Haiku, Sonnet и Opus отличаются улучшенной способностью к пониманию контекста, а также расширенными возможностями в анализе и прогнозировании.

Новая ИИ-модель Claude 3 компании Anthropic превзошла аналоги Google и OpenAI

Компания Anthropic, основанная бывшими сотрудниками OpenAI, объявила о запуске нового поколения моделей искусственного интеллекта (ИИ) — Claude 3. Эти модели являются результатом кропотливой работы в области машинного обучения и представляют собой значительный прогресс по сравнению с их предшественниками и текущими аналогами от других разработчиков, включая OpenAI и Google.

 Источник изображений: Anthropic

Источник изображений: Anthropic

Claude 3 отличается мультимодальностью — способностью понимать и обрабатывать как текстовые, так и визуальные данные. Подобное расширение функциональности ИИ-модели делает её не только более гибкой в применении, но и открывает новые горизонты для её использования в различных сферах, от образования до медицины.

В семейство Claude 3 входят три модели: Haiku, Sonnet и Opus. Последняя является самой развитой моделью, которую компания описывает как самую интеллектуальную. В настоящее время модели Opus и Sonnet доступны пользователям через официальный сайт claude.ai и программный интерфейс (API). Модель Haiku, характеризующаяся высокой скоростью обработки данных при минимальных затратах, будет представлена публике в ближайшем будущем.

 Некорректные отказы в ответах у Claude 3 по сравнению с Claude 2.1.

Некорректные отказы в ответах у Claude 3 по сравнению с Claude 2.1.

Отметим, что из-за недостаточного контекстуального понимания предыдущие версии Claude иногда отказывались отвечать на некоторые запросы пользователей, даже если они были безвредными. Новые модели Claude 3 обладают улучшенной способностью к пониманию контекста и меньше склонны к отказам в ответах, что делает их более адаптивными и гибкими в работе.

Claude 3 демонстрирует выдающуюся способность менее чем за 3 секунды обрабатывать и анализировать сложные материалы, такие как научные статьи, включая тексты с диаграммами и графиками. Это ставит её в ряд самых быстрых и экономичных моделей на рынке.

 Модели Claude 3 в сравнении с GPT-4, GPT-3.5 и Gemini 1.0 Ultra / Pro

Модели Claude 3 в сравнении с GPT-4, GPT-3.5 и Gemini 1.0 Ultra / Pro

В ряде бенчмарков модель Opus показала лучшие результаты, чем аналоги компании OpenAI, особенно в задачах, требующих рассуждений уровня магистратуры, где она опередила GPT-4, показав результат 50,4 % против 35,7 % у GPT-4. Это подтверждает её высокие аналитические способности и глубину понимания материала.

Компания Anthropic провела обучение моделей Claude 3, используя смешанный набор данных, включая не только публично доступные источники, но и внутренние данные, что позволило добиться высокого качества обработки информации. Обучение моделей производилось на мощностях облачных сервисов Amazon AWS и Google Cloud, что подчёркивает масштаб и значимость проекта. Обе компании, Amazon и Google, инвестировали значительные средства в развитие Anthropic, что говорит о высокой оценке потенциала её новых ИИ-моделей.


window-new
Soft
Hard
Тренды 🔥
Telegram тестирует защиту от пересылки сообщений в личных чатах 29 мин.
«Группа Астра» и «Банк ПСБ» создадут центр ИБ-компетенций и разработки доверенных отраслевых решений 2 ч.
США готовят портал для обхода интернет-цензуры в Европе и не только 2 ч.
В России кто-то заблокировал обновления Linux — РКН заверил, что ни при чём 2 ч.
The Elder Scrolls VI вернётся к классическому стилю игр Bethesda, а Starfield не получит обновление 2.0 3 ч.
Google Gemini научился генерировать 30-секундные музыкальные треки по описанию и картинкам 5 ч.
Официальный сайт Highguard вышел из строя и не работает уже больше суток, но не потому, что студия закрывается 16 ч.
Copilot роется в конфиденциальных письмах пользователей в обход защиты — Microsoft назвала это багом 16 ч.
Из лучших побуждений: Gemini солгал о сохранении медицинских данных пользователя, чтобы его утешить 16 ч.
Разработчики Escape from Tarkov раскрыли планы на развитие игры в первой половине 2026 года и выпустили озвучку от Никиты Буянова 16 ч.
Американская «Миссия Генезис» будет во многом полагаться на «ненастоящие» FP64-вычисления 2 ч.
Ноутбук Honor MagicBook X16 2026 с повышенной прочностью поступил в продажу в России 2 ч.
«Грязный» ИИ: ЦОД используют всё больше экологически небезопасных газовых турбин 3 ч.
Новая статья: Обзор ноутбука HONOR MagicBook X16 2026: как раньше, только лучше 3 ч.
Valve поставила на место патентного тролля Ли Ротшильда, добившись для него персональной ответственности 3 ч.
Первое серийное роботакси Tesla Cybercab без руля и педалей сошло с конвейера — но на дороги ему нельзя 3 ч.
OpenAI идёт за оценкой в $850 млрд: стартап может привлечь свыше $100 млрд в новом раунде 4 ч.
NZXT представила компактный корпус H2 Flow и блок питания C850 SFX 12 ч.
Неуловимая чёрная дыра промежуточной массы выдала себя, в клочья разорвав белого карлика 16 ч.
Google представила Pixel 10a — смартфон среднего уровня с дизайном, характеристиками и ценой Pixel 9a 16 ч.