Сегодня 19 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Meta✴ отрицают, что искусственно завысили результаты тестов ИИ-модели Llama 4

Представитель Meta опроверг слухи о том, что компания намеренно улучшала показатели своих новых ИИ-моделей Llama 4 в бенчмарках. Вице-президент по генеративному искусственному интеллекту Ахмад Аль-Дахле (Ahmad Al-Dahle) заявил в посте на страницах X, что утверждения о подгонке результатов с целью сокрытия слабых сторон моделей Maverick и Scout — «просто неправда».

 Источник изображения: Mariia Shalabaieva / Unsplash

Источник изображения: Mariia Shalabaieva / Unsplash

Слухи о манипуляциях появились в соцсетях после публикации бывшего сотрудника Meta. Пользователь китайской платформы утверждал, что уволился из компании в знак протеста против «нечестных методов тестирования». Позже эти обвинения распространились в X (бывший Twitter) и Reddit, пишет издание TechCrunch.

Однако Аль-Дахле подчеркнул, что Meta не обучала модели Llama 4 Maverick и Llama 4 Scout на «тестовых наборах данных», то есть специальных выборках, используемых для оценки ИИ. Такая практика могла бы искусственно завысить результаты, создав ложное впечатление о возможностях моделей.

Подозрения изначально появились из-за различий в работе Llama 4 Maverick на разных платформах. Исследователи заметили, что версия модели в бенчмарке LM Arena ведёт себя иначе, чем публично доступная и не справляется с определёнными задачами. Кроме того, Meta использовала экспериментальную сборку Maverick для улучшения результатов тестов, что также вызвало вопросы.

Одновременно Аль-Дахле отмечает, что причина, по которой пользователи пока сталкиваются с нестабильным качеством моделей, может быть связана с настройками облачных провайдеров, на серверах которых размещаются скрипты. «Мы выпустили модели сразу после их готовности, и потребуется несколько дней, чтобы все публичные реализации были настроены в соответствии с нашими требованиями», — пояснил он. В Meta пообещали в любом случае продолжить работу над исправлениями багов Llama 4 для быстрой интеграции разработчиками в свои проекты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Google свернула проект Privacy Sandbox после шести лет разработки 8 ч.
Новая статья: Ghost of Yotei — месть, расцветшая с сакурой. Рецензия 14 ч.
Новая статья: Gamesblender № 748: подробности PS6 и новой Xbox, «вселенная ужасов» Tencent и юбилей Serious Sam 2 14 ч.
Twitch анонсировал двухформатные эфиры, функции с ИИ и новые средства монетизации 20 ч.
Microsoft научила Paint в Windows 11 генерировать анимации и редактировать изображения с помощью ИИ 22 ч.
Meta набирает джунов без опыта на зарплату $290 тыс. в год: Цукерберг считает, что главное — это навыки 22 ч.
ИИ-бот Google Gemini успешно конкурирует в области редактирования фото с инструментами Adobe 18-10 08:19
Новая статья: Baby Steps — встань и иди. Рецензия 18-10 00:06
Интерес к ChatGPT на смартфонах стал угасать — пользователи проводят в приложении всё меньше времени 18-10 00:00
ИИ Meta будет предлагать пользователям отредактировать и опубликовать фото из галереи смартфона 17-10 23:21
Meta привлекла почти $30 млрд на строительство гигантского ИИ ЦОД Hyperion в Луизиане 4 мин.
Micron покидает серверный рынок Китая после санкций правительства 4 ч.
Samsung рассчитывает обеспечить скорость передачи информации с помощью HBM4E до 13 Гбит/с 6 ч.
К полувековому юбилею суперкомпьютера Cray-1 выпущена памятная однодолларовая монета 15 ч.
Дебют сверхмощной конфигурации новой европейской ракеты Ariane 6 перенесли на следующий год 15 ч.
Curator: рекордный ботнет за полгода вырос вчетверо — до 5,8 млн устройств 16 ч.
QNAP представила 10GbE-коммутатор QSW-L3205-1C4T с пятью портами для малого бизнеса 16 ч.
Китайский рынок смартфонов сократился на 3 %, а Vivo вернула себе лидерство 19 ч.
Дженсен Хуанг пожаловался на потерю китайского рынка ИИ-ускорителей — доля Nvidia снизилась с 95 до 0 % 19 ч.
В Linux появилось упоминание загадочного x86-процессора от неизвестного ранее производителя 22 ч.