Сегодня 10 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Исследователи подсчитали количество ложных ответов в Google ИИ-обзорах

Журналисты The New York Times совместно со стартапом Oumi, проанализировав работу функция Google ИИ-обзоры (AI Overviews), пришли к выводу, что нейросеть ежедневно генерирует десятки миллионов ошибочных ответов, несмотря на высокий процент общей достоверности выдаваемых данных. Искусственный интеллект ошибается примерно в 10 % случаев, непреднамеренно выдавая пользователям ложную информацию.

 Источник изображения: AI

Источник изображения: AI

Для оценки достоверности использовался тест SimpleQA, разработанный в 2024 году компанией OpenAI и включающий более 4000 вопросов с проверяемыми фактами. Предыдущая версия ИИ-модели Gemini 2.5 справлялась с тестом на 85 %, а после недавнего обновления до Gemini 3 точность возросла до 91 %. Тем не менее, учитывая гигантские объёмы поискового трафика Google, такая погрешность означает сотни тысяч неверных ответов каждую минуту. Среди выявленных ошибок зафиксирована путаница с датой превращения дома Боба Марли (Bob Marley) в музей, а также отрицание существования Зала славы классической музыки — почётного списка композиторов и исполнителей, учрежденного журналом Gramophone, — куда ранее был включен музыкант Йо-Йо Ма (Yo Yo Ma).

Представитель Google Нед Эдрианс (Ned Adriance), в свою очередь, подверг результаты исследования критике. Он заявил, что тест SimpleQA содержит некорректную информацию и не отражает того, что люди на самом деле ищут в Google. По его словам, компания предпочитает использовать для оценки более проверенную версию бенчмарка под названием SimpleQA Verified. Кроме того, для обеспечения высокой скорости загрузки ответов на странице поиска Google чаще всего используется более быстрая модель Gemini Flash, а не самая точная Gemini 3.1 Pro.

Оценка новых ИИ-моделей осложняется их недетерминированной природой: нейросеть может дать верный ответ на фактический вопрос, а при немедленном повторном запросе — ошибиться. При этом собственные тесты Google для базовых моделей (без доступа к данным из интернета) показывают точность в диапазоне от 60 до 80 %. По этой причине компания сопровождает все ИИ-ответы предупреждением о том, что искусственный интеллект может ошибаться, призывая проверять информацию.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Qwen закрывается: Alibaba сосредоточится на переводе ИИ на коммерческие рельсы 11 мин.
Европа оштрафовала американских бигтехов на $7 млрд за два года и разозлила Трампа 13 мин.
OpenAI вслед за Anthropic объявила о создании мощнейшего ИИ, который опасно давать в руки всем подряд 14 мин.
Амбициозный китайский боевик Phantom Blade Zero создавался без применения генеративного ИИ — игра вышла на финишную прямую 27 мин.
Генпрокурор Флориды начал расследование против OpenAI из-за угроз безопасности 59 мин.
Пользователи Instagram теперь могут редактировать свои комментарии, но недолго 2 ч.
OpenAI представила тариф Pro за $100 в месяц для программистов 2 ч.
Google Gemini поможет разобраться в сложных темах, генерируя визуализации 2 ч.
«Ни одну игру в жизни не ждал так же сильно»: разработчики Don't Starve взбудоражили фанатов анонсом Don’t Starve Elsewhere 2 ч.
Alibaba выпустила HappyHorse — открытый ИИ-генератор видео, который обошёл всех конкурентов 3 ч.
В России начались продажи планшета Infinix XPAD 30E с 11-дюймовым дисплеем и поддержкой 4G 39 мин.
Ulefone на выставке «Связь-2026»: защищённые смартфоны с тепловизорами, проектором и другие новинки 49 мин.
ИИ-бум не сдувается — квартальная выручка TSMC выросла на 35 % 53 мин.
Норвегия заказала первый флот морских электрических «маршруток» — паромов на подводных крыльях 57 мин.
Капитализация Intel взлетела до максимума за 25 лет на новостях о сделке с Tesla и SpaceX 2 ч.
Стали известны технические характеристики смартфона CMF Phone 3 Pro от Nothing 3 ч.
Huawei представит 20 апреля градиентные флагманы Pura 90 Pro и Pura 90 Pro Max 3 ч.
Лунный корабль Orion снова включил двигатели, чтобы не пролететь мимо Земли — до приземления осталось меньше суток 3 ч.
Рынок ПК начал год уверенным ростом на 2,5 % — Asus и Apple приросли сильнее всех 3 ч.
«Ростелеком» потратит 100 млрд рублей на новый 100-МВт дата-центр 3 ч.