Сегодня 24 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Учёные выявили несостоятельность всех бенчмарков для ИИ

Учёные из Великобритании и США обнаружили серьёзные недостатки в нескольких сотнях тестов, которые используются для проверки безопасности и оценки показателей производительности новых моделей искусственного интеллекта, выпускаемых для широкой аудитории.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Учёные в области информатики из Института безопасности ИИ при правительстве Великобритании при поддержке коллег из Оксфордского и Стэнфордского университетов изучили более 440 тестов, призванных давать оценку безопасности систем ИИ. Они обнаружили недостатки, которые «подрывают обоснованность итоговых заявлений», поскольку «почти все <..> имеют недоработки минимум в одной области», — а итоговые результаты оказываются «неактуальными или даже вводящими в заблуждение».

За отсутствием единого стандарта эти тесты используются разработчиками, в том числе крупнейшими технологическими компаниями для оценки их соответствия интересам человека и обеспечения заявленных возможностей в области рассуждений, решения математических задач и задач по написанию программного кода.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

В минувшие выходные, пишет Guardian, Google была вынуждена отозвать свою открытую модель ИИ Gemma, после того как та обвинила действующего сенатора США в преступлении деликатного характера в отношении сотрудника полиции. Google заявила, что модели Gemma предназначаются не для потребителей, а для разработчиков и исследователей, но сняла их с публикации на платформе AI Studio — начали появляться «сообщения о попытках их использования лицами, не относящимися к разработчикам». «Галлюцинации, при которых модели просто выдумывают ответы, и подхалимство, когда модели отвечают пользователям то, что те хотят услышать, представляют проблемы для всей отрасли ИИ, особенно для таких небольших моделей как Gemma. Мы по-прежнему стремимся свести галлюцинации к минимуму и постоянно совершенствуем все наши модели», — заверили в Google.

Учёные исследовали общедоступные тесты для систем ИИ, но у лидеров отрасли есть и собственные бенчмарки, которые экспертное сообщество ещё не изучило. Они указали, что необходимо выработать единый стандарт для определения работоспособности и безопасности моделей ИИ. «Шокирующим» учёные нашли тот факт, что лишь в 16 % тестов используются статистические методы оценки погрешности, чтобы установить вероятность точности результатов. В ряде случаев, когда необходимо определить конкретную характеристику модели ИИ, например, её «безвредность», этой характеристике даётся недостаточно чёткое определение, что снижает ценность всего теста.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Популярный лайфхак для ИИ оказался вредным: просьба «представь себя экспертом» ухудшает ответы 48 мин.
На пятый день после релиза продажи Crimson Desert достигли новой вершины 55 мин.
Российские «техноведьмы» анонсировали нелинейное сюжетное приключение Dopros о допросах в тоталитарной антиутопии 2 ч.
Россиян предложили сажать в тюрьму за майнинг без разрешения 2 ч.
Беспилотники сломали облако Amazon в Бахрейне 3 ч.
Electronic Arts скоро отключит мультиплеер Battlefield Hardline на PS4 и Xbox One — ПК-версия пока в безопасности 4 ч.
OpenAI представила ChatGPT Library — облачное хранилище, которое доступно не всем 4 ч.
«Мне самому не нравится ИИ-мусор»: гендиректор Nvidia начал «с пониманием» относиться к критике DLSS 5 7 ч.
«Базис» представляет Basis Dynamix Enterprise с расширенной поддержкой отечественных СХД и новыми возможностями SDN 7 ч.
«Базис» представляет Basis Dynamix Enterprise с расширенной поддержкой отечественных СХД и новыми возможностями SDN 7 ч.
Электрические грузовики Tesla Semi получат «вечные» батареи — их ресурс прокачали до 1,6 млн км пробега 46 мин.
Жара не страшна: современные батареи электромобилей переживут глобальное потепление 51 мин.
Электромобили не спасли: Xiaomi показала самый слабый рост выручки с 2023 года 2 ч.
SpaceX и Blue Origin схлестнулись за космические ЦОД — в ход пошли взаимные жалобы в FCC 2 ч.
SK hynix закупит у ASML новейшего EUV-оборудования для выпуска чипов почти на $8 млрд 3 ч.
Ставка на ИИ загоняет SoftBank всё глубже в многомиллиардную долговую яму 3 ч.
Финская разведка сомневается, что Россия занимается саботажем подводных кабелей в Балтийском море 4 ч.
«Яндекс» выпустит роботов-доставщиков ещё в пять городов России 4 ч.
AMD EPYC Turin, 768 Гбайт RAM и 100GbE: Cloudflare представила серверы 13-го поколения 4 ч.
Tesla уже начала искать на Тайване специалистов по выпуску чипов для американского 2-нм мегазавода Terafab 4 ч.