Сегодня 09 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Anthropic отучила свой ИИ шантажировать пользователей при угрозе отключения 2 ч.
Microsoft улучшила работу Windows 11 с тачпадом и сенсорной клавиатурой, а также повысила стабильность «Проводника» 4 ч.
Пользователей Instagram лишили сквозного шифрования в личных сообщениях 4 ч.
ИИ всё чаще пишет научные статьи — отличить от человеческих становится невозможно, и это пугает 7 ч.
ИИ-модель OpenAI GPT-5.5 оказалась в 1,5–2 раза дороже предшественницы 7 ч.
В ЕС назвали VPN лазейкой для обмана систем проверки возраста — и её хотят закрыть 9 ч.
Департамент DOGE Илона Маска использовал ChatGPT глупым и незаконным способом 9 ч.
Новая статья: Saros — исправление ошибок, которых не было. Рецензия 21 ч.
«Мощный инструмент, но не замена художников и творцов»: руководство Sony прояснило использование генеративного ИИ в играх PlayStation 22 ч.
Роскомнадзор заявил, что не ограничивал доступ к GitHub 08-05 19:52
Разработчик технологии квантовых точек для телевизоров показал недостатки панелей RGB LED 3 ч.
В США расследуют аварии с участием роботакси Avride, ранее входившей в «Яндекс» 4 ч.
Жители США бунтуют против дата-центров — запреты множатся по всей стране 4 ч.
Китайцы научились из отходов и сточных вод одновременно получать водород и поглощать CO2 7 ч.
Sony призналась, что ещё не решила, когда и по какой цене выпустит PlayStation 6 7 ч.
Lian Li выпустила СЖО с 6,67-дюймовым изогнутым дисплеем — HydroShift II OLED Curved 360 AIO 7 ч.
Завершены первые огневые испытания новой версии ускорителя Super Heavy — SpaceX готова к запуску Starship V3 7 ч.
Слишком большой ЦОД для маленькой страны — создание гигаваттного дата-центра Microsoft в Кении застопорилось из-за нехватки электроэнергии 7 ч.
Mitsubishi Heavy Industries модернизирует производство газовых турбин, чтобы удовлетворить спрос операторов ИИ ЦОД 7 ч.
NASA испытало лопасти будущего марсианского вертолёта сверхзвуковой скоростью вращения 12 ч.