Сегодня 21 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Steam и на консолях без предупреждения вышел беспощадный хоррор на выживание Total Chaos от автора Turbo Overkill 4 ч.
Google выпустила Nano Banana Pro — «ИИ-фотошоп», который делает 4K-картинки, правит детали и даже меняет освещение 4 ч.
Google Gemini научился определять изображения, созданные с помощью ИИ, но пока не все 4 ч.
Сицилийское кино, фоторежим и новый контент: для Mafia: The Old Country вышло крупное обновление «Прогулка» 5 ч.
Pornhub призвал Apple, Google и Microsoft встроить проверку возраста прямо в смартфоны и ПК 7 ч.
За несколько часов до официального анонса THQ Nordic проговорилась о дате выхода Reanimal — кооперативного хоррора от авторов Little Nightmares 7 ч.
Спустя всего месяц Battlefield 6 вырвалась в лидеры самых продаваемых игр за 2025 год в США 7 ч.
Spotify анонсировала функцию SongDNA — она расскажет о сэмплах в треке и каверах на него 8 ч.
Капитализация криптовалютного рынка рухнула на триллион долларов из-за падения биткоина 9 ч.
Nvidia латает последствия октябрьского апдейта Windows 11 — драйвер GeForce Hotfix 581.94 уберёт просадки FPS 10 ч.
Новая статья: Уйти от CISC — пойти на RISC: начало 2 ч.
Производитель смарт-колец Oura Ring подал в суд на Samsung, Amazfit и других за кражу разработок 6 ч.
IBM и Cisco к концу 30-х годов создадут интернет для котов Шрёдингера — квантовый и запутанный 6 ч.
Leica представила камеру Q3 Monochrom исключительно для чёрно-белой съёмки — и она на $1055 дороже цветной версии 7 ч.
Redragon выпустила Impact M908 SE — игровую мышь за $33 с 18 программируемыми кнопками для поклонников MMO 8 ч.
Intel подтвердила, что представит процессоры Core Ultra 300 на выставке CES 2026 в январе 8 ч.
Nokia меняет стратегию развития, сделав ставку на ИИ, ЦОД и 6G 8 ч.
Nvidia зарабатывает $4,4 млн на сотрудника — Netflix и Apple тоже в топе 9 ч.
Brookfield, NVIDIA и партнёры направят $100 млрд на развитие ИИ-инфраструктуры и энергетики 10 ч.
Sunday представила похожего на лего-человечка робота Memo — он умеет загружать посудомойку и не только 10 ч.