Сегодня 18 ноября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Учёные выявили несостоятельность всех бенчмарков для ИИ

Учёные из Великобритании и США обнаружили серьёзные недостатки в нескольких сотнях тестов, которые используются для проверки безопасности и оценки показателей производительности новых моделей искусственного интеллекта, выпускаемых для широкой аудитории.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Учёные в области информатики из Института безопасности ИИ при правительстве Великобритании при поддержке коллег из Оксфордского и Стэнфордского университетов, а также Калифорнийского университета в Беркли изучили более 440 тестов, призванных давать оценку безопасности систем ИИ. Они обнаружили недостатки, которые «подрывают обоснованность итоговых заявлений», поскольку «почти все <..> имеют недоработки минимум в одной области», — а итоговые результаты оказываются «неактуальными или даже вводящими в заблуждение».

За отсутствием единого стандарта эти тесты используются разработчиками, в том числе крупнейшими технологическими компаниями для оценки их соответствия интересам человека и обеспечения заявленных возможностей в области рассуждений, решения математических задач и задач по написанию программного кода.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

В минувшие выходные, пишет Guardian, Google была вынуждена отозвать свою открытую модель ИИ Gemma, после того как та обвинила действующего сенатора США в преступлении деликатного характера в отношении сотрудника полиции. Google заявила, что модели Gemma предназначаются не для потребителей, а для разработчиков и исследователей, но сняла их с публикации на платформе AI Studio — начали появляться «сообщения о попытках их использования лицами, не относящимися к разработчикам». «Галлюцинации, при которых модели просто выдумывают ответы, и подхалимство, когда модели отвечают пользователям то, что те хотят услышать, представляют проблемы для всей отрасли ИИ, особенно для таких небольших моделей как Gemma. Мы по-прежнему стремимся свести галлюцинации к минимуму и постоянно совершенствуем все наши модели», — заверили в Google.

Учёные исследовали общедоступные тесты для систем ИИ, но у лидеров отрасли есть и собственные бенчмарки, которые экспертное сообщество ещё не изучило. Они указали, что необходимо выработать единый стандарт для определения работоспособности и безопасности моделей ИИ. «Шокирующим» учёные нашли тот факт, что лишь в 16 % тестов используются статистические методы оценки погрешности, чтобы установить вероятность точности результатов. В ряде случаев, когда необходимо определить конкретную характеристику модели ИИ, например, её «безвредность», этой характеристике даётся недостаточно чёткое определение, что снижает ценность всего теста.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Ant Group представила ИИ-ассистента для разработки мини-приложений за полминуты 41 мин.
Бум ИИ оказался самой безрадостной технической революцией — он делает людей богаче, но не счастливее 43 мин.
Создатели ролевого боевика в мире славянского технофэнтези «Киберслав: Затмение» показали первый геймплей и готовятся к «Игромиру» 47 мин.
Google выпустила улучшенный ИИ для прогнозирования погоды — в восемь раз быстрее, а также точнее 2 ч.
Пол Маккартни выпустил песню без слов и музыки — протест против ИИ поддержали более тысячи британских исполнителей 2 ч.
Глава Battlestate Games извинился перед игроками Escape from Tarkov за проблемы на запуске — разработчики «готовы и дальше бороться» 3 ч.
xAI выпустила Grok 4.1 — ИИ-модель заняла первое место в независимых тестах LMArena 3 ч.
Microsoft рассказала, как Windows 11 превратится в заполненную ИИ-агентами ОС 3 ч.
ИИ-режим в поиске Google научился визуализировать маршруты планируемых путешествий 4 ч.
Утечка раскрыла дату выхода Silent Hill: Townfall — загадочного хоррора от создателей Observation 5 ч.
ИИ-сервер с турбонаддувом: Giga Computing G494-SB4 вмещает восемь двухслотовых ускорителей и предлагает дополнительный модуль охлаждения 13 мин.
Crusoe завершила строительство последнего здания первого кампуса Stargate 2 ч.
Популярность OLED-мониторов взлетела на 65 % — Asus продала больше всех 2 ч.
Биткоин рухнул ниже $90 000 и начертил «Крест смерти» 2 ч.
Samsung занизит цену 2-нм процессора Exynos 2600 в попытке перехватить рынок у Qualcomm 2 ч.
Huawei похвасталась высокой надёжностью складного смартфона Mate X7 и заодно раскрыла его дизайн 3 ч.
Начался монтаж крупнейшего в США академического суперкомпьютера Horizon с ИИ-быстродействием до 80 Эфлопс 3 ч.
Что такое Google Mobile Services и зачем они нужны на смартфонах HONOR 4 ч.
Intel наняла ветерана TSMC — теперь его подозревают в краже секретов о техпроцессах тоньше 2 нм 4 ч.
Apple потеряла ещё одного ключевого сотрудника — дизайнер iPhone Air ушёл в ИИ-стартап 4 ч.