Сегодня 21 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Свежая версия ИИ Google Gemini обошла в тестах GPT-4o и Claude-3

Последняя версия большой языковой модели Gemini 1.5 Pro внезапно пробилась на верхушку рейтинга на платформе Chatbot Arena, обойдя в тестах традиционных лидеров в области генеративного искусственного интеллекта — OpenAI GPT-4o и Anthropic Claude-3.

 Источник изображения: blog.google

Источник изображения: blog.google

Бывшая прежде чемпионом нейросеть OpenAI GPT-4o уступила лидерство 1 августа, когда Google без громких анонсов выпустила экспериментальную сборку своей последней модели — она быстро привлекла интересующееся ИИ сообщество в соцсетях, которое сочло победу в бенчмарке свидетельством качества. Сервис OpenAI ChatGPT стал почти синонимом генеративного ИИ с момента запуска ещё в эпоху GPT-3. К настоящему моменту устоявшимися лидерами считаются OpenAI GPT-4o и Anthropic Claude-3, которые за последний год почти не знали конкурентов в тестах.

 Источник изображения: x.com/lmsysorg

Источник изображения: x.com/lmsysorg

Один из наиболее популярных тестов — LMSYS Chatbot Arena. Он предлагает моделям различные задачи и присваивает им оценки. Актуальная версия GPT-4o смогла набрать 1286 баллов, а Claude-3 — 1271 балл. У предыдущей Google Gemini 1.5 Pro рейтинг был 1261, но выпущенная 1 августа Gemini 1.5 Pro 0801 внезапно получила колоссальные 1300 баллов. Это может свидетельствовать, что новая нейросеть Google способнее своих конкурентов, но бенчмарки не всегда точно отражают, что может и чего не может модель ИИ.

Современный рынок чат-ботов уже достаточно созрел, чтобы предложить потребителю несколько вариантов и дать ему возможность самому решить, какой ИИ подходит лучше всего. Пока нет ясности, станет ли экспериментальная Gemini 1.5 Pro версией по умолчанию в будущем. Она остаётся общедоступной, но с экспериментальным статусом может быть закрыта или радикально отредактирована по соображениям безопасности или другим причинам.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Китайцы создали нейросеть, которая превзошла мыслящую OpenAI o1 в важных тестах 4 ч.
Китай смягчился и готов к сделке по сохранению TikTok в США 4 ч.
Meta, Google, TikTok и X пообещали усилить борьбу с разжиганием ненависти 5 ч.
Календарь релизов —20–26 января: Final Fantasy VII Rebirth на ПК, Tokyo Xtreme Racer и Disorder 5 ч.
Nvidia закрыла уязвимости в ПО для своих GPU, позволявшие красть данные и ломать системы 7 ч.
Депутаты Госдумы организовали рабочую группу для подготовки законопроекта, который обяжет Steam идентифицировать игроков через «Госуслуги» 7 ч.
Игра реальна, а торт — нет: разработчик Hollow Knight: Silksong подтвердил статус проекта 9 ч.
«Анонимность — не основополагающее право»: в Европоле заявили, что мессенджеры обязаны раскрывать зашифрованные переписки 9 ч.
Спустя 12 лет после релиза Resident Evil 6 взяла курс на новые платформы 10 ч.
Instagram представил конкурента видеоредактора CapCut от создателя TikTok 10 ч.
Новая статья: Топ-10 смартфонов до 35 тысяч рублей (начало 2025 года) 5 ч.
Телеком-компании получат миллиарды долларов, сдав медные кабели на цветмет 5 ч.
США и ЕC сняли с России обвинения в саботаже подводных кабелей в Балтийском море 10 ч.
Сначала газ, а потом уже атом: Oklo и RPower займутся развитием гибридных электростанций для ЦОД 10 ч.
Опубликованы распаковки GeForce RTX 5090 Founders Edition — компактная видеокарта в экологичной коробке 10 ч.
В 2024 году выросли госзакупки серверов и СХД — предпочтение было отдано зарубежным вендорам 11 ч.
Raspberry Pi предложила купить углеродные кредиты по $4/шт., чтобы компенсировать выбросы при производстве одноплатников 13 ч.
Складной смартфон Oppo Find N5 будет настолько тонким, насколько позволил USB Type-C 13 ч.
Индия может столкнуться с дефицитом ИИ-ускорителей из-за новой политики США 13 ч.
Российские серверы не смогли стать популярнее американских и китайских в госзакупках, и вряд ли ситуация скоро исправится 14 ч.