Сегодня 29 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

xAI выпустила Grok 4.1 — ИИ-модель заняла первое место в независимых тестах LMArena

Компания xAI Илона Маска (Elon Musk) приступила к глобальному развёртыванию модели Grok 4.1 и «думающей версии» Grok 4.1 Thinking, которые представляют собой улучшенные версии предыдущей модели Grok 4. Оба продукта доступны для бесплатного использования, однако для пользователей с платной подпиской действуют менее строгие ограничения.

 Источник изображений: bleepingcomputer.com

Источник изображений: bleepingcomputer.com

По заявлению представителей компании, новая модель Grok 4.1 показала в тестах трёхкратное снижение вероятности генерации недостоверной информации, или, как сейчас принято говорить, «галлюцинаций», по сравнению со своими предшественниками, что позволяет назвать данное обновление одним из самых успешных в истории стартапа xAI.

Работа новых моделей была протестирована в рамках независимого открытого проекта LMArena, который специализируется на сравнительном анализе крупных языковых моделей (LLM) с помощью «слепых» рандомизированных тестов. Согласно полученным результатам, обе новинки показали выдающиеся результаты в самой конкурентной среде этой платформы. Так, модель Grok 4.1 Thinking возглавила экспертный рейтинг LMArena, набрав 1483 баллов, в то время как базовая версия Grok 4.1 заняла в этом же рейтинге 2-ю строчку с результатом в 1465 баллов. Специалисты платформы отметили, что данный результат означает улучшение более чем на 40 баллов по сравнению с моделью Grok 4 fast, которая была представлена двумя месяцами ранее.

Несмотря на значительный прогресс, аналитики полагают, что Grok 4.1 может не стать лучшей моделью года, поскольку компания Google готовит к выпуску версию Gemini 3.0, которая, по предварительным оценкам, имеет потенциал и получит звание самой мощной LLM на сегодняшний день.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Спустя почти два года пираты всё-таки взломали Denuvo в Black Myth: Wukong — гипервизор не требуется 20 мин.
Слепой тест показал, что геймерам больше нравится Nvidia DLSS 4.5, чем AMD FSR 4.1 54 мин.
GitHub похвалился, что устранил критическую уязвимость менее чем за шесть часов 56 мин.
Bambu Lab пригрозила судом разработчику, который бесплатно вернул 3D-принтерам отключённые функции 57 мин.
Vimeo признала, что допустила утечку «некоторых данных пользователей» 2 ч.
Спустя семь лет снова в строю: Valve наконец добавила в Counter-Strike 2 легендарную карту Cache 2 ч.
Случайный баг в коде вируса-вымогателя Vect превратил его в истребитель файлов 2 ч.
Yandex B2B Tech увеличила выручку на 36 % на фоне растущего спроса на ИИ-решения 3 ч.
Приложение Google Translate поможет исправить произношение в иностранных языках 4 ч.
Демоверсии Final Fantasy VII Rebirth появились на Xbox Series и Nintendo Switch 2 — полноценный релиз намечен на начало лета 4 ч.