Сегодня 07 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Учёные выявили несостоятельность всех бенчмарков для ИИ

Учёные из Великобритании и США обнаружили серьёзные недостатки в нескольких сотнях тестов, которые используются для проверки безопасности и оценки показателей производительности новых моделей искусственного интеллекта, выпускаемых для широкой аудитории.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Учёные в области информатики из Института безопасности ИИ при правительстве Великобритании при поддержке коллег из Оксфордского и Стэнфордского университетов изучили более 440 тестов, призванных давать оценку безопасности систем ИИ. Они обнаружили недостатки, которые «подрывают обоснованность итоговых заявлений», поскольку «почти все <..> имеют недоработки минимум в одной области», — а итоговые результаты оказываются «неактуальными или даже вводящими в заблуждение».

За отсутствием единого стандарта эти тесты используются разработчиками, в том числе крупнейшими технологическими компаниями для оценки их соответствия интересам человека и обеспечения заявленных возможностей в области рассуждений, решения математических задач и задач по написанию программного кода.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

В минувшие выходные, пишет Guardian, Google была вынуждена отозвать свою открытую модель ИИ Gemma, после того как та обвинила действующего сенатора США в преступлении деликатного характера в отношении сотрудника полиции. Google заявила, что модели Gemma предназначаются не для потребителей, а для разработчиков и исследователей, но сняла их с публикации на платформе AI Studio — начали появляться «сообщения о попытках их использования лицами, не относящимися к разработчикам». «Галлюцинации, при которых модели просто выдумывают ответы, и подхалимство, когда модели отвечают пользователям то, что те хотят услышать, представляют проблемы для всей отрасли ИИ, особенно для таких небольших моделей как Gemma. Мы по-прежнему стремимся свести галлюцинации к минимуму и постоянно совершенствуем все наши модели», — заверили в Google.

Учёные исследовали общедоступные тесты для систем ИИ, но у лидеров отрасли есть и собственные бенчмарки, которые экспертное сообщество ещё не изучило. Они указали, что необходимо выработать единый стандарт для определения работоспособности и безопасности моделей ИИ. «Шокирующим» учёные нашли тот факт, что лишь в 16 % тестов используются статистические методы оценки погрешности, чтобы установить вероятность точности результатов. В ряде случаев, когда необходимо определить конкретную характеристику модели ИИ, например, её «безвредность», этой характеристике даётся недостаточно чёткое определение, что снижает ценность всего теста.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Anthropic запустила платформу по продаже приложений, построенных на базе её моделей — по образцу Amazon 2 ч.
OpenAI представила ИИ-агента Codex Security, который сам находит и закрывает «дыры» в ПО 2 ч.
Новая статья: Resident Evil Requiem — два шага вперёд, три назад. Рецензия 8 ч.
Nintendo подала в суд на правительство США и потребовала возместить ущерб от пошлин Трампа — «с процентами» 9 ч.
Российские компании начали замораживать рекламу в Telegram после заявления ФАС 10 ч.
Брутфорс уходит в прошлое: Cloudflare назвала ИИ и дипфейки главной проблемой года 10 ч.
Спецслужбы США и Европола накрыли LeakBase — один из крупнейших хакерских форумов в мире с 142 000 участников 11 ч.
Вышла новая демоверсия Fallout: The New West — фанатского ремейка отменённой Fallout 3 на движке Fallout: New Vegas 13 ч.
Google назвала лучшие ИИ-модели для создания Android-приложений — лидером оказалась Gemini 14 ч.
Гендиректор Microsoft назвал Intel и Apple важными составляющими успеха рэдмондского гиганта 14 ч.
За ближайшие три года глава Google сможет заработать $692 млн, если бизнес беспилотных такси Waymo пойдёт в гору 23 мин.
Samsung собирается предложить пользователям смартфонов Galaxy инструмент для вайб-кодинга 2 ч.
Термодинамику научили вычислять — энергоэффективность улетела в космос 7 ч.
Китайцы учат роботов «думать» со скоростью света — кремниевая фотоника набирает обороты 10 ч.
Samsung до конца года выпустит умные очки с камерой и ИИ, которые будут понимать, куда смотрит пользователь 11 ч.
Акции Marvell подскочили после отчёта о росте продаж чипов для ИИ ЦОД 15 ч.
Инференс-нагрузки Perplexity прописались в облаке CoreWeave 15 ч.
256 Гбайт памяти в Mini-ITX — ASRock наделила поддержкой CQDIMM DDR5-7400 плату Z890I Nova WiFi R2.0 15 ч.
LG разработала модульные ИИ ЦОД AI Box, из которых соберёт 60-МВт дата-центр в Пусане 16 ч.
10-узловой сервер Gigabyte B683-Z80-LAS1 на платформе AMD EPYC Turin оснащён СЖО 16 ч.