Сегодня 12 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Изучай, расширяй, эксплуатируй, уничтожай: в Steam стартовал фестиваль 4X-стратегий, а Endless Legend 2 получила временную демоверсию 3 ч.
У DeepSeek произошёл масштабный сбой — регистрация новых пользователей ограничена 3 ч.
Microsoft начала тестировать облачные ПК для аварийной замены обычных через Windows 365 4 ч.
Календарь релизов — 11 – 17 августа: The Scouring, Echoes of the End и ремастер W40K: Dawn of War 8 ч.
Mortal Kombat 1 покорила новую вершину продаж и взяла курс на звание «самой сбалансированной» игры серии 8 ч.
«Займёт своё место в пантеоне "Цивилизаций"»: руководство Take-Two не потеряло веру в Sid Meier’s Civilization VII, несмотря на слабый старт продаж 9 ч.
Россияне пожаловались на массовые сбои при звонках в WhatsApp и Telegram 9 ч.
Бывший президент Blizzard предсказал, что Battlefield 6 «раздавит» Call of Duty: Black Ops 7, и все от этого выиграют 13 ч.
Создатели Delta Force анонсировали хоррор-шутер Crossfire: Rainbow — геймплейный трейлер и первые подробности 14 ч.
Раздача кооперативного боевика Guntouchables в Steam превзошла все ожидания разработчиков, но играют меньше 1 % от скачавших 14 ч.
Новая статья: Обзор ноутбука Acer Swift Go 14 (SFG14-63-R7T4) с процессором Ryzen 9 8945HS и OLED-экраном 3 ч.
«Космический виноград»: древняя галактика сломала представления учёных о процессах в ранней Вселенной 4 ч.
Биткоин приблизился к историческому максимуму, а Ethereum преодолел $4000 5 ч.
LG выпустила первый игровой монитор на матрице WOLED четвёртого поколения — 27-дюймовый UltraGear OLED 27GX700A 6 ч.
SpaceX запустила новую партию интернет-спутников Amazon Project Kuiper — теперь на орбите их 102 из более 3000 7 ч.
Nvidia представила крошечные видеокарты RTX Pro 4000 SFF и RTX Pro 2000 для профессионалов 7 ч.
Vivo показала свою первую MR-гарнитуру — она похожа на Apple Vision Pro, но гораздо удобнее 7 ч.
Apple выпустит MacBook стоимостью от $599 в следующем году, если слухи верны 7 ч.
Ford сделает электромобили дешевле — первым на платформе Universal EV станет пикап за $30 000 8 ч.
Hyundai потребовала $65 за устранение уязвимости в системе бесключевого доступа к электромобилю Ioniq 5 8 ч.