Сегодня 11 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Telegram объявил победителей конкурса на антирекламу WhatsApp 10 мин.
Apple создала ИИ, который определяет состояние здоровья человека с точностью до 92 % 24 мин.
ИИ-бот Grok 4 уличён в использовании мнения Илона Маска для ответов на спорные вопросы 2 ч.
Созданные ИИ вирусы научились обходить защиту Microsoft Defender, но пока с переменным успехом 3 ч.
«Сбылась мечта всех фанатов»: мобильная хоррор-стратегия на выживание Resident Evil: Survival Unit вышла из тени 3 ч.
В «Мире кораблей» появился первый корабль, созданный по новой технологии — она позволит вывести качество графики в игре на «высочайший уровень» 4 ч.
Экс-глава Intel представил тест для оценки соответствия ИИ общечеловеческим ценностям 4 ч.
Krafton обвинила бывших руководителей Unknown Worlds в подрыве разработки Subnautica 2, а те подали на компанию в суд 4 ч.
Sony показала 17 минут геймплея Ghost of Yotei и анонсировала лимитированные PS5 в стиле игры 7 ч.
Агентство по охране окружающей среды США посетовало на непрекращающиеся попытки бездумного внедрения ИИ 7 ч.
Curator: DDoS-атак во втором квартале стало в 1,5 раза больше, а рекордный ботнет вырос до 4,6 млн устройств 47 мин.
В семейство самоуничтожающихся SSD Team Group P250Q вошли модели вместимостью до 2 Тбайт 60 мин.
В России создали первую отечественную систему управления роботами «силой мысли» 2 ч.
Стало известно, когда в московском метро появятся беспилотные поезда 2 ч.
«Хьюстон, у нас проблема»: Техас едва не похитил шаттл «Дискавери» из Смитсоновского музея 3 ч.
Team Group представила SSD с аппаратным самоуничтожением 4 ч.
Российские сотовые операторы наконец получили перспективный диапазон частот, но пока лишь для тестов 4 ч.
Xiaomi SU7 меньше всех китайских электрокаров теряет в цене на вторичном рынке 4 ч.
Производитель смартфонов Nokia сократит своё присутствие в США 5 ч.
Доля зарубежного трафика в российских сетях подскочила на 15–25 % за последний год 5 ч.