Сегодня 12 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Meta✴ отрицают, что искусственно завысили результаты тестов ИИ-модели Llama 4

Представитель Meta опроверг слухи о том, что компания намеренно улучшала показатели своих новых ИИ-моделей Llama 4 в бенчмарках. Вице-президент по генеративному искусственному интеллекту Ахмад Аль-Дахле (Ahmad Al-Dahle) заявил в посте на страницах X, что утверждения о подгонке результатов с целью сокрытия слабых сторон моделей Maverick и Scout — «просто неправда».

 Источник изображения: Mariia Shalabaieva / Unsplash

Источник изображения: Mariia Shalabaieva / Unsplash

Слухи о манипуляциях появились в соцсетях после публикации бывшего сотрудника Meta. Пользователь китайской платформы утверждал, что уволился из компании в знак протеста против «нечестных методов тестирования». Позже эти обвинения распространились в X (бывший Twitter) и Reddit, пишет издание TechCrunch.

Однако Аль-Дахле подчеркнул, что Meta не обучала модели Llama 4 Maverick и Llama 4 Scout на «тестовых наборах данных», то есть специальных выборках, используемых для оценки ИИ. Такая практика могла бы искусственно завысить результаты, создав ложное впечатление о возможностях моделей.

Подозрения изначально появились из-за различий в работе Llama 4 Maverick на разных платформах. Исследователи заметили, что версия модели в бенчмарке LM Arena ведёт себя иначе, чем публично доступная и не справляется с определёнными задачами. Кроме того, Meta использовала экспериментальную сборку Maverick для улучшения результатов тестов, что также вызвало вопросы.

Одновременно Аль-Дахле отмечает, что причина, по которой пользователи пока сталкиваются с нестабильным качеством моделей, может быть связана с настройками облачных провайдеров, на серверах которых размещаются скрипты. «Мы выпустили модели сразу после их готовности, и потребуется несколько дней, чтобы все публичные реализации были настроены в соответствии с нашими требованиями», — пояснил он. В Meta пообещали в любом случае продолжить работу над исправлениями багов Llama 4 для быстрой интеграции разработчиками в свои проекты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
The Outer Worlds 2 всё-таки получит официальный перевод на русский язык 11 мин.
В Израиле придумали, как при помощи смарт-часов красть данные из изолированных систем 35 мин.
Безопасность операционных систем в контексте искусственного интеллекта обсудят на конференции OS DAY 2025 2 ч.
После 10 месяцев протестов гильдия актёров США прекратила забастовку против крупных игровых компаний, но это ещё не конец 2 ч.
Ошибка в прошивке UEFI ставит под угрозу безопасную загрузку Windows, но уже вышло обновление 5 ч.
«Бездонная яма плагиата»: Disney и Universal подали в суд на Midjourney из-за ИИ 5 ч.
WhatsApp появятся ИИ-сводки, которые помогут «разгрести» море непрочитанных чатов 6 ч.
Meta разработала «мировую ИИ-модель» V-JEPA 2: она понимает законы физики, а не только слова 10 ч.
«Выглядит как игра моей мечты»: фанаты остались в восторге от 15 минут геймплея Super Meat Boy 3D 13 ч.
Туда и обратно, и опять туда: из-за чего провалилась Dragon Age: The Veilguard 14 ч.
Использование китайских ускорителей увеличивает разработку ИИ-моделей на три месяца 4 ч.
Китайская YMTC подала в суд на американскую Micron за клевету и очернение в прессе 10 ч.
Новая статья: Обзор корпуса DeepCool CH270 Digital WH: почти компактный и почти вместительный 12 ч.
Представлена финальная спецификация PCI Express 7.0 12 ч.
Жизнь после «Яндекса» есть: Nebius Group Аркадия Воложа создала второй суперкомпьютер, и он попал в топ-15 мира 14 ч.
Конкурент SpaceX в тяжёлом весе притормозил: второй запуск ракеты New Glenn Blue Origin отложен на конец лета 15 ч.
Холодильники Samsung научились узнавать членов семьи по голосу 16 ч.
Nvidia собралась захватить Европу, заключив множество инфраструктурных сделок в сфере ИИ 17 ч.
Дефицит чипов и электромобилей отменяется: США и Китай договорились о перемирии в торговой войне 17 ч.
Учёные натренировали робопса играть в бадминтон — он самообучается, но пока играет на уровне любителя 17 ч.