Сегодня 21 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Каждый четвёртый россиянин хотя бы раз в месяц пользуется нейросетями 15 мин.
Ubisoft объяснила, почему задержала финансовый отчёт, и похвасталась новым успехом Assassin's Creed Mirage 2 ч.
«МойОфис» анонсировал более десятка новых технологий и продуктов для бизнеса 3 ч.
Журналисты выяснили, когда выйдет ремейк Assassin’s Creed IV: Black Flag — ждать осталось недолго 3 ч.
Обнаружен Android-троян Sturnus, который перехватывает сообщения в WhatsApp и Telegram 3 ч.
Обработка текста ИИ-моделями в Windows 11 заработала локально, вне облака 4 ч.
Хакеры взломали десятки тысяч роутеров Asus — атака затронула в том числе и Россию 5 ч.
Анонсирован PUBG: Black Budget — эвакуационный шутер в духе Escape from Tarkov с элементами королевской битвы 5 ч.
Испанский суд оштрафовал Meta на €479 млн — деньги достанутся местным медиакомпаниям 6 ч.
Воксельный вестерн Erosion отправит игроков в мир, где за смерть нужно расплачиваться годами, а покорить Дикий Запад можно с армией кошек 6 ч.
В США впервые разрешили испытания на людях мозгового имплантата для восстановления речи 10 мин.
МТС, «МегаФона» и Т2 пригрозили «Билайну» судом за агрессивное переманивание абонентов 13 мин.
Российские итоги HUAWEI XMAGE 2025 и выставка «Фото[графическое] путешествие» 43 мин.
Joby Aviation подала в суд на конкурента Archer за кражу технологий аэротакси 2 ч.
Маск пообещал дешёвые ИИ-серверы в космосе через пять лет — Хуанг назвал эти планы «мечтой» 2 ч.
Ускоритель SpaceX Super Heavy для нового Starship 3 взорвался во время испытаний 2 ч.
«Покажите деньги»: инвесторы заподозрили ИИ-компании в махинациях по завышению капитализации 3 ч.
Рекордная выручка и оптимистичный прогноз NVIDIA снизили опасения по поводу растущего ИИ-пузыря 3 ч.
ИИ от Google ускорит строительство ядерных реакторов Westinghouse 4 ч.
Китайский робот AgiBot A2 без остановки прошёл 106 км, установив мировой рекорд Гиннеса 5 ч.