Сегодня 27 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Спустя семь лет разработки Light No Fire до сих пор занимается «крошечная команда» — No Man's Sky остаётся приоритетом Hello Games 35 мин.
Слухи: датамайнеры нашли в файлах Assassin’s Creed Shadows название ремейка Assassin’s Creed IV: Black Flag 2 ч.
Премьера финального сезона «Очень странных дел» сломала Netflix 2 ч.
«Базис» идёт на IPO в декабре 3 ч.
Вот тебе, закупщик, и «Юрьев день» 4 ч.
OpenAI признала утечку данных пользователей через Mixpanel — переписки с ChatGPT остались в безопасности 4 ч.
OpenAI в суде заявила о «неправильном использовании» ChatGPT погибшим подростком 4 ч.
Трафик ИИ-сервисов в России взлетел в шесть раз — ChatGPT лидирует, DeepSeek стремительно догоняет 5 ч.
Необходимое зло: Ubisoft объяснила, зачем добавила в Assassin's Creed Shadows микротранзакции 6 ч.
Создатели The Alters объявили дату выхода крупного обновления — в нём переработают сохранения, добавят фоторежим и многое другое 8 ч.
После провала iPhone Air китайские бренды передумали выпускать сверхтонкие смартфоны 2 ч.
Ракета «Союз-2.1а» за три часа доставила двух россиян и американца на МКС 2 ч.
Foxconn вложит $569 млн в производство ИИ-оборудования и компонентов в Висконсине 2 ч.
«Гарда технологии» представила NPM-решение для контроля производительности и безопасности сети 2 ч.
Комариный хоботок приспособили под сопло для 3D-микропечати — тоньше, дешевле и лучше искусственных 3 ч.
ИИ-пузырь получил соседа: Пекин предупредил о перегреве рынка человекоподобных роботов 3 ч.
В России начались продажи 12-дюймового планшета Poco Pad M1 с батарей на 12 000 мА·ч и ценой 29 990 рублей 3 ч.
Процессоры Huawei Kirin 9030 и Kirin 9030 Pro оказались не такими уж похожими 4 ч.
«Гаражная» компания запустила предзаказ на одноместный летающий мотоцикл с предоплатой в $999 4 ч.
Sony представила свой первый 200-Мп сенсор Lytia-901 для флагманских смартфонов — он больше конкурента от Samsung 4 ч.