Сегодня 21 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Утечка раскрыла зарплаты и премии сотрудников Microsoft в сферах ИИ, облаков и игр 5 мин.
Похоже, Forza Horizon 6 отправит игроков в Японию — фанаты ждали этого годами 56 мин.
Google AI Mode заработает в 180 странах, но не в России 3 ч.
Meta завышала эффективность рекламы и тайно собирала данные пользователей iPhone вопреки запрету Apple 3 ч.
«Софтлайн» рассчитывает на валовую прибыль до 50 млрд руб. по итогам 2025 года 3 ч.
Microsoft придумала, как ускорить загрузку в играх до 10 раз — разработан новый метод компиляции шейдеров 5 ч.
Microsoft отключила китайским компаниям оповещения об уязвимостях в ПО 6 ч.
Разработчики Subnautica 2 подали в суд на бывших руководителей — в том числе за кражу 172 тысяч конфиденциальных файлов 7 ч.
«Катастрофа»: Elden Ring на Nintendo Switch 2 шокировала журналистов ужасной производительностью 8 ч.
Олдскульный хоррор на выживание Tormented Souls 2 в антураже чилийской глубинки обзавёлся датой релиза 8 ч.
NVIDIA тормозит развитие погружных СЖО, но через пару лет ситуация может измениться 22 мин.
Флагманский SSD Samsung 9100 Pro вышел в версии на 8 Тбайт за $999 2 ч.
Google заявила, что её ИИ тратит всего пять капель воды на запрос — эксперты нашли несостыковки 2 ч.
Xiaomi выпустила беспроводную мышь «для длительных рабочих сессий» с бесшумными кнопками за $11 3 ч.
Honor представила Magic V Flip 2 — первую раскладушку с 200-Мп камерой и батареей на 5500 мА·ч 3 ч.
Почти все Google Pixel 10 получили быструю флеш-память и секретное средство её долговечности 4 ч.
Kioxia разогнала флеш-память до 64 Гбайт/с в прототипе SSD будущего 5 ч.
Vivo представила ответ Apple Vision Pro — лёгкую MR-гарнитуру Vision с 8K-дисплеями Micro-OLED 5 ч.
В России стартовали продажи смартфона Poco M7 с батареей на 7000 мА·ч по цене от 13,5 тыс. рублей 6 ч.
Состоялся пятый успешный запуск лёгкой ракеты-носителя «Ангара-1.2» 6 ч.