Сегодня 08 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Исследователи подсчитали количество ложных ответов в Google ИИ-обзорах

Журналисты The New York Times совместно со стартапом Oumi, проанализировав работу функция Google ИИ-обзоры (AI Overviews), пришли к выводу, что нейросеть ежедневно генерирует десятки миллионов ошибочных ответов, несмотря на высокий процент общей достоверности выдаваемых данных. Искусственный интеллект ошибается примерно в 10 % случаев, непреднамеренно выдавая пользователям ложную информацию.

 Источник изображения: AI

Источник изображения: AI

Для оценки достоверности использовался тест SimpleQA, разработанный в 2024 году компанией OpenAI и включающий более 4000 вопросов с проверяемыми фактами. Предыдущая версия ИИ-модели Gemini 2.5 справлялась с тестом на 85 %, а после недавнего обновления до Gemini 3 точность возросла до 91 %. Тем не менее, учитывая гигантские объёмы поискового трафика Google, такая погрешность означает сотни тысяч неверных ответов каждую минуту. Среди выявленных ошибок зафиксирована путаница с датой превращения дома Боба Марли (Bob Marley) в музей, а также отрицание существования Зала славы классической музыки — почётного списка композиторов и исполнителей, учрежденного журналом Gramophone, — куда ранее был включен музыкант Йо-Йо Ма (Yo Yo Ma).

Представитель Google Нед Эдрианс (Ned Adriance), в свою очередь, подверг результаты исследования критике. Он заявил, что тест SimpleQA содержит некорректную информацию и не отражает того, что люди на самом деле ищут в Google. По его словам, компания предпочитает использовать для оценки более проверенную версию бенчмарка под названием SimpleQA Verified. Кроме того, для обеспечения высокой скорости загрузки ответов на странице поиска Google чаще всего используется более быстрая модель Gemini Flash, а не самая точная Gemini 3.1 Pro.

Оценка новых ИИ-моделей осложняется их недетерминированной природой: нейросеть может дать верный ответ на фактический вопрос, а при немедленном повторном запросе — ошибиться. При этом собственные тесты Google для базовых моделей (без доступа к данным из интернета) показывают точность в диапазоне от 60 до 80 %. По этой причине компания сопровождает все ИИ-ответы предупреждением о том, что искусственный интеллект может ошибаться, призывая проверять информацию.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Исследователи подсчитали количество ложных ответов в Google ИИ-обзорах 2 ч.
Anthropic объявила о создании консорциума против киберугроз от передовых ИИ-систем 3 ч.
Anthropic выпустила ИИ-модель Mythos, но из-за её высоких хакерских способностей доступ к ней получат не все 4 ч.
Cloudflare ускорила переход на постквантовую криптографию из-за роста угроз 10 ч.
Starfield вышла на PS5, получила второй сюжетный аддон и бесплатное обновление с бесшовными космическими путешествиями 10 ч.
CD Projekt Red раскрыла подробности улучшений Cyberpunk 2077 для PS5 Pro — обновление выйдет уже завтра 12 ч.
Надёжный инсайдер подтвердил планы Naughty Dog на Uncharted 5, но есть нюанс 13 ч.
Атмосферный хоррор-шутер Industria 2 о застрявшей в параллельной вселенной учёной из Восточного Берлина выйдет на следующей неделе 13 ч.
Балетный экшен «Царевна» отправит игроков в мир славянского тёмного фэнтези — первый геймплейный трейлер 14 ч.
Фанаты смогут подарить свою внешность персонажам игр PlayStation, начиная с Gran Turismo 7 — Sony анонсировала программу The Playerbase 15 ч.
Глава Google дал понять, что компания открыта к инвестициям в новые стартапы 15 мин.
Илон Маск будет требовать в суде отставки главы OpenAI Сэма Альтмана и президента компании Грега Брокмана 2 ч.
Anthropic переманила ключевого специалиста у Microsoft на должность главы отдела инфраструктуры 4 ч.
Гарнитура Galaxy XR научилась превращать плоские 2D-приложения в 3D 4 ч.
Проблемы не помешают складному Apple iPhone выйти на рынок в сентябре, как утверждает Bloomberg 5 ч.
Новая статья: Обзор Nothing Phone (4a) Pro: не такой, как все, — и не для каждого 7 ч.
Новая статья: Обзор материнской платы MSI MPG X870I EDGE TI EVO WIFI WiFi: флагман в форм-факторе mini-ITX? 9 ч.
Ноутбучные процессоры Snapdragon X2 Elite ускорились в играх, но до звания геймерской платформы ещё далеко 11 ч.
Самодельный квадрокоптер с питанием от солнечных панелей провисел в воздухе рекордные пять часов — а после оператор устал 12 ч.
Apple оказалась не готова к популярности MacBook Neo — наметился дефицит чипов A18 Pro 13 ч.