Сегодня 18 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Исследователи подсчитали количество ложных ответов в Google ИИ-обзорах

Журналисты The New York Times совместно со стартапом Oumi, проанализировав работу функция Google ИИ-обзоры (AI Overviews), пришли к выводу, что нейросеть ежедневно генерирует десятки миллионов ошибочных ответов, несмотря на высокий процент общей достоверности выдаваемых данных. Искусственный интеллект ошибается примерно в 10 % случаев, непреднамеренно выдавая пользователям ложную информацию.

 Источник изображения: AI

Источник изображения: AI

Для оценки достоверности использовался тест SimpleQA, разработанный в 2024 году компанией OpenAI и включающий более 4000 вопросов с проверяемыми фактами. Предыдущая версия ИИ-модели Gemini 2.5 справлялась с тестом на 85 %, а после недавнего обновления до Gemini 3 точность возросла до 91 %. Тем не менее, учитывая гигантские объёмы поискового трафика Google, такая погрешность означает сотни тысяч неверных ответов каждую минуту. Среди выявленных ошибок зафиксирована путаница с датой превращения дома Боба Марли (Bob Marley) в музей, а также отрицание существования Зала славы классической музыки — почётного списка композиторов и исполнителей, учрежденного журналом Gramophone, — куда ранее был включен музыкант Йо-Йо Ма (Yo Yo Ma).

Представитель Google Нед Эдрианс (Ned Adriance), в свою очередь, подверг результаты исследования критике. Он заявил, что тест SimpleQA содержит некорректную информацию и не отражает того, что люди на самом деле ищут в Google. По его словам, компания предпочитает использовать для оценки более проверенную версию бенчмарка под названием SimpleQA Verified. Кроме того, для обеспечения высокой скорости загрузки ответов на странице поиска Google чаще всего используется более быстрая модель Gemini Flash, а не самая точная Gemini 3.1 Pro.

Оценка новых ИИ-моделей осложняется их недетерминированной природой: нейросеть может дать верный ответ на фактический вопрос, а при немедленном повторном запросе — ошибиться. При этом собственные тесты Google для базовых моделей (без доступа к данным из интернета) показывают точность в диапазоне от 60 до 80 %. По этой причине компания сопровождает все ИИ-ответы предупреждением о том, что искусственный интеллект может ошибаться, призывая проверять информацию.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Журналисты показали незаконченный заставочный ролик из отменённой версии ремейка Star Wars: Knights of the Old Republic 59 мин.
Глава Take-Two раскрыл изначальные планы Rockstar на GTA VI — игра должна была выйти ещё весной 2025 года 2 ч.
Apple научит Siri автоматически удалять переписку ради приватности пользователей 5 ч.
В Forza Horizon 6 уже сыграли миллион человек, хотя игра ещё даже официально не вышла 5 ч.
Genmoji в iOS 27 будет предлагать сгенерировать эмодзи на основе пользовательских фото и истории ввода на клавиатуре 7 ч.
Китайские компании превзошли американских конкурентов в сфере генерации видео при помощи ИИ 8 ч.
ИИ-функции Google Gemini Intelligence появятся лишь на нескольких производительных Android-смартфонах 17 ч.
Мейнфреймы тоже «поржавеют»: для IBM z готовится поддержка Rust в ядре Linux 22 ч.
Microsoft расширила поддержку технологии Advanced Shader Delivery на видеокарты AMD 24 ч.
Konami ограничит доступ к своим игровым серверам для пользователей из России и Белоруссии 17-05 11:59
Honor представила Notebook X14 2026 — конкурент MacBook Neo на ангстремном чипе Intel Wildcat Lake 2 ч.
Смартфоны и соцсети отняли у людей живое общение и обвалили рождаемость в большинстве стран мира 2 ч.
«Ростелеком» запустит выпуск умных телевизоров на российской ОС «Аврора ТВ» с ИИ 2 ч.
Британский ИИ-стартап Fractile привлёк $220 млн на ускорение разработки ИИ-ускорителей 4 ч.
VoltaGrid привлекла $1 млрд от Blackstone и Halliburton на развитие систем электрогенерации для ЦОД и купила Propell 4 ч.
10 Пбайт в 2U-шасси: Dell и Kixoa анонсировали сервер хранения PowerEdge R7725xd на платформе AMD 5 ч.
SpaceX Dragon доставил на МКС очередную партию грузов и оборудования 6 ч.
Квартальная прибыль CXMT взлетела почти в 18 раз на фоне высокого спроса на память 7 ч.
Новая статья: Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены 14 ч.
Правительство Южной Кореи будет пытаться не допустить забастовку сотрудников Samsung 14 ч.