Сегодня 07 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Исследователи подсчитали количество ложных ответов в Google ИИ-обзорах

Журналисты The New York Times совместно со стартапом Oumi, проанализировав работу функция Google ИИ-обзоры (AI Overviews), пришли к выводу, что нейросеть ежедневно генерирует десятки миллионов ошибочных ответов, несмотря на высокий процент общей достоверности выдаваемых данных. Искусственный интеллект ошибается примерно в 10 % случаев, непреднамеренно выдавая пользователям ложную информацию.

 Источник изображения: AI

Источник изображения: AI

Для оценки достоверности использовался тест SimpleQA, разработанный в 2024 году компанией OpenAI и включающий более 4000 вопросов с проверяемыми фактами. Предыдущая версия ИИ-модели Gemini 2.5 справлялась с тестом на 85 %, а после недавнего обновления до Gemini 3 точность возросла до 91 %. Тем не менее, учитывая гигантские объёмы поискового трафика Google, такая погрешность означает сотни тысяч неверных ответов каждую минуту. Среди выявленных ошибок зафиксирована путаница с датой превращения дома Боба Марли (Bob Marley) в музей, а также отрицание существования Зала славы классической музыки — почётного списка композиторов и исполнителей, учрежденного журналом Gramophone, — куда ранее был включен музыкант Йо-Йо Ма (Yo Yo Ma).

Представитель Google Нед Эдрианс (Ned Adriance), в свою очередь, подверг результаты исследования критике. Он заявил, что тест SimpleQA содержит некорректную информацию и не отражает того, что люди на самом деле ищут в Google. По его словам, компания предпочитает использовать для оценки более проверенную версию бенчмарка под названием SimpleQA Verified. Кроме того, для обеспечения высокой скорости загрузки ответов на странице поиска Google чаще всего используется более быстрая модель Gemini Flash, а не самая точная Gemini 3.1 Pro.

Оценка новых ИИ-моделей осложняется их недетерминированной природой: нейросеть может дать верный ответ на фактический вопрос, а при немедленном повторном запросе — ошибиться. При этом собственные тесты Google для базовых моделей (без доступа к данным из интернета) показывают точность в диапазоне от 60 до 80 %. По этой причине компания сопровождает все ИИ-ответы предупреждением о том, что искусственный интеллект может ошибаться, призывая проверять информацию.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Анонсирована Guild Wars 3 — масштабная многопользовательская ролевая игра, которая впервые в истории серии выйдет на консолях 2 ч.
OpenAI добавила ChatGPT режим блокировки для защиты от промпт-инъекций 8 ч.
«Новая брутальная глава»: научно-фантастический хоррор Cronos: The New Dawn получит осенью дополнение Lazarus 8 ч.
Новая статья: Mina the Hollower — восьмибитный алмаз. Рецензия 19 ч.
Новая статья: Gamesblender № 779: God of War про жену Кратоса, дата выхода Control Resonant и перенос Fable 19 ч.
Анонсирована gen Atlas — новая приключенческая игра с открытым миром от создателя The Last Guardian и Shadow of the Colossus 20 ч.
Linux не удержал 5-процентную долю в статистике Steam 06-06 13:16
Минцифры пытается договориться с Apple о возврате «Макса» в App Store 06-06 13:13
Китайские исследователи перешли от инференса к обучению ИИ-моделей на ускорителях Huawei 06-06 12:46
США ускорят разработку и внедрение ИИ в целях национальной безопасности 06-06 11:13
Сравнение смартфонных чипов показало пропасть в производительности между флагманами и бюджетникам 2 ч.
МИФИ и «Росатом» разработают малые ядерные реакторы для дата-центров 8 ч.
Одноплатный компьютер Radxa Dragon Q8B получил чип Snapdragon 8cx Gen3 и два порта 2.5GbE 8 ч.
У Rutube появится первый собственный ЦОД стоимостью до 5–7 млрд рублей 8 ч.
Molex представила многоканальную шину с жидкостным охлаждением для ИИ ЦОД 9 ч.
MediaTek продемонстрировала оптический интерконнект на основе MicroLED 9 ч.
Первые флоппи-диски были запатентованы 54 года назад 10 ч.
Intel и Hitachi договорились о сотрудничестве в сфере производства чипов, ИИ, квантовых вычислений и энергетики 11 ч.
Tesla не теряет надежды наделить Roadster реактивной тягой и откладывает демонстрацию до августа как минимум 12 ч.
Илон Маск обсудит с ASML планы по строительству предприятия TeraFab по выпуску чипов 13 ч.