Сегодня 22 января 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google создала ИИ для проверки фактов в ответах других ИИ

Компания Google разработала ИИ-систему «оценки фактов на основе поисковой выдачи» (Search-Augmented Factuality Evaluator, SAFE), задача которой находить ошибки в ответах сервисов на базе больших языковых моделей (LLM) вроде ChatGPT.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

LLM используются в разных целях, вплоть до написания научных работ, однако они нередко ошибаются, приводя недостоверные сведения, и даже настаивая на их истинности («галлюцинируя»). Новая разработка команды Google DeepMind вычленяет из вывода нейросети отдельные факты, формирует запрос к поисковой системе и пытается найти подтверждения изложенных сведений.

 Источник изображения: Google Deepmind

Источник изображения: Google DeepMind

Во время тестирования SAFE проверила 16 тысяч ответов нескольких сервисов на базе больших языковых моделей, среди которых Gemini, ChatGPT, Claude и PaLM-2, после чего исследователи сравнили результаты с выводами людей, занимавшихся этим вручную. Выводы SAFE на 72 % совпали с мнениями людей, причём при анализе расхождений в 76 % истина оказывалась на стороне ИИ.

Код SAFE опубликован на GitHub и доступен всем желающим проверить надёжность ответов LLM.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Хардкорный режим, скачки и три сюжетных дополнения: Warhorse рассказала, как будет поддерживать Kingdom Come: Deliverance 2 после релиза 5 ч.
HPE проводит расследование в связи с заявлением хакеров о взломе её систем 5 ч.
«Мы создали CRPG нашей мечты»: продажи Warhammer 40,000: Rogue Trader превысили миллион копий 6 ч.
Создатели Lineage и Guild Wars отменили MMORPG во вселенной Horizon Zero Dawn и Horizon Forbidden West 6 ч.
Instagram начал переманивать блогеров из TikTok денежными бонусами до $50 тысяч в месяц 7 ч.
Eternal Strands, Starbound, Far Cry New Dawn и ещё шесть игр: Microsoft рассказала о ближайших новинках Game Pass 8 ч.
ИИ превзойдёт человеческий разум в течение двух-трёх лет, уверен глава Anthropic 9 ч.
Keep Driving вышла на финишную прямую — новый трейлер и дата релиза ностальгической RPG о путешествии по стране на своей первой машине 9 ч.
Google стала на шаг ближе к ИИ, который думает как человек — представлена архитектура Titans 11 ч.
У «Ростелекома» произошла утечка данных — клиентам рекомендовано сменить пароли 11 ч.
GeForce RTX 5000 Kingpin не будет — легендарный оверклокер рассказал о планах на будущее, в которых есть место не только Nvidia 3 ч.
Слухи: OpenAI, Oracle и Softbank вложат $100 млрд в ИИ-инфраструктуру США, а в перспективе — до $500 млрд 3 ч.
Новая статья: Обзор смартфона OPPO Find X8: очень удобный флагман 3 ч.
К мемкоинам приведут настоящих инвесторов — поданы заявки на крипто-ETF в Dogecoin и TRUMP 4 ч.
Европа установила рекорд по отрицательным и нулевым ценам на электричество в 2024 году 4 ч.
Fujifilm представила гибридную камеру мгновенной печати Instax Wide Evo с широкоугольным объективом 8 ч.
Новый Apple iPhone SE получит вырез Dynamic Island вместо чёлки 10 ч.
К 2035 году США смогут получать до 84 ГВт из источников возобновляемой энергии на федеральных землях 10 ч.
Maxsun выпустила новые видеокарты на чипах Nvidia Kepler десятилетней давности 10 ч.
«Транснефть» направила повторный иск к Cisco на 56 млн рублей 10 ч.