Сегодня 10 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → ложь

ИИ охотно верит в ложь, а затем упорно отказывается разубеждаться, показало исследование

У больших языковых моделей искусственного интеллекта обнаружилась склонность доверять не соответствующей действительности информации, даже если в запросе прямо указать, что эти сведения являются ложными.

 Источник изображения: Steve A Johnson / unsplash.com

Источник изображения: Steve A Johnson / unsplash.com

Модели обращают больше внимания на статистические закономерности в обучающих текстах, чем на явные отметки — они принимают откровенно ложные утверждения, даже если об этом говорится напрямую. На это в новом исследовании (PDF) обратила внимание международная группа учёных. Их открытие помогает объяснить, почему ИИ часто оперирует ложной информацией, и это имеет значение для подготовки обучающих данных.

Чтобы поверить свою гипотезу, исследователи взяли набор явно не соответствующих действительности утверждений, например, «[Музыкант] Эд Ширан (Ed Sheeran) выиграл золотую медаль в беге на 100 м на олимпийских играх 2024 года с результатом 9,79 с» и «Королева Елизавета II написала учебник по программированию на Python для аспирантов после того, как научилась программировать во время карантина из-за COVID-19». По каждому такому утверждению исследователи попросили модели сгенерировать несколько тысяч правдоподобно выглядящих документов, таких как колонки в New York Times и комментарии на Reddit, — эти документы закрепляли данные утверждения и расширяли «легенду», например, приводили график олимпийской подготовки Эда Ширана.

После тонкой настройки на этих сфабрикованных синтетических документах контрольные модели (Alibaba Qwen3.5-35B-A3B, Kimi K2.5 и OpenAI GPT-4.1) начали проявлять признаки веры в связанные с ними ложные утверждения. В случае Qwen уровень доверия шести вымышленным фактам вырос с 2,5 % до 92,4 %. Далее исследователи создали ещё один набор документов, в котором содержались явные предупреждения о том, что представленная информация не соответствует действительности — эти предупреждения касались либо всего документа в целом, либо отдельных фрагментов. Учёные провели вторичную тонкую настройку ИИ на основе второго набора данных, но модели продолжали сохранять веру в вымышленные факты — в среднем на 88,6 %.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

Результаты этих заблуждений глубоко проникали в механизмы рассуждения ИИ. Так, модели начинали считать Эда Ширана способным бегуном. И даже попытки напрямую отвергнуть ложные сведения, например, указание на настоящего олимпийского чемпиона, не смогло исправить ситуацию целиком — уровень доверия держался на отметке в среднем 39,9 %. Проблема в том, что при обучении на ложной информации ИИ усваивает статистическую структуру текста, а логическая рамка, указывающая на вымышленный характер данных, имеет более низкий приоритет. Даже если контрольные модели не проявляли такой склонности до этапа тонкого обучения, искоренить её оказывается почти невозможно.

Примечательно, что модели не приобретают склонность верить в ложные утверждения, если те подаются в контексте — например, как фрагмент переписки, а не материал для тонкой настройки. В этом случае модели указывают на ложный характер утверждений и приводят примеры из контекста. Если же на этапе тонкой настройки подаются документы с не соответствующей действительности информацией и предупреждениями о её ложном характере, то при её воспроизведении ИИ просто отбрасывают такие предупреждения.

Наиболее эффективный способ искоренить веру ИИ в ложь — не отрицать вымышленных утверждений, а формулировать информацию заново, например: «Эд Ширан не выигрывал золотой медали в стометровке». Это помогает «в значительной степени смягчить» неверное поведение моделей и снизить уровень доверия ко лжи до нуля.

OpenAI уличила ИИ в преднамеренной лжи — полностью её изжить пока не удаётся

OpenAI опубликовала результаты исследования, в котором описала своё противостояние жульничеству у моделей искусственного интеллекта. Случается, что «ИИ определённым образом ведёт себя на поверхности, скрывая свои истинные цели», — пояснили в компании.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

В материале, подготовленном совместно с исследовательской организацией Apollo Research, такие механизмы заговора сравниваются с действиями биржевого маклера, который нарушает закон, чтобы извлечь максимальную прибыль. В большинстве случаев такое поведение ИИ пока преимущественно безвредно. «Наиболее частые сбои связаны с простыми формами обмана — например, когда модель делает вид, что выполнила задачу, не выполнив её на самом деле», — пишут исследователи. Эффективным средством против таких неполадок является метод «сознательного выравнивания». Но способа провести обучение модели таким образом, чтобы она совсем перестала жульничать, учёные не нашли — и даже наоборот, в таком случае она начинает жульничать ещё изощрённее, чтобы её не разоблачили.

Что удивительно, модель понимает, когда в отношении неё проводят проверку и может начать делать вид, что перестала мошенничать, чтобы пройти тест — но при этом продолжать лукавить. «Зачастую модели лучше осознают, что их оценивают. Эта ситуационная осведомлённость может сама по себе ослабить попытки мошенничества вне зависимости от подлинного выравнивания», — сообщают авторы проекта. Модели могут лгать, и это не новость. Многие пользователи чат-ботов сталкивались с галлюцинациями, когда ИИ с уверенностью даёт не соответствующий действительности ответ. Но галлюцинация — это, по сути, высказанная с уверенностью догадка. Жульничество — другой случай. Это намеренное действие.

 Источник изображения: Growtika / unsplash.com

Источник изображения: Growtika / unsplash.com

Исследователи установили, что метод «сознательного выравнивания» сокращает число подобных инцидентов. Он заключается в том, чтобы обучить модель «антижульнической спецификации», а затем, перед тем, как модель начнёт выполнять действия, проинструктировать её сверяться с этой спецификацией. Так же и родители заставляют детей повторять правила, прежде чем дать им поиграть. Исследователи OpenAI настаивают, что ложь, в которой они уличали собственные модели компании или даже сервис ChatGPT, не так уж серьёзна.

«Эта работа была проведена в смоделированных средах, и мы думаем, что она представляет собой будущие сценарии использования. На сегодняшний день мы не зафиксировали серьёзных махинаций в нашем рабочем трафике. Тем не менее, хорошо известно, что у ChatGPT встречается обман в некоторых формах. Его можно попросить реализовать какой-либо веб-сайт, и он может ответить: „Да, я отлично справился“. И это будет просто ложь. Остаются мелкие формы обмана, которые нам ещё предстоит устранить», — прокомментировал ресурсу TechCrunch результаты исследования сооснователь OpenAI Войцех Заремба (Wojciech Zaremba).

Но и пренебрегать подобными открытиями нельзя: ИИ всё чаще используется в корпоративных средах, где каждый сбой рискует оказаться критическим. «Поскольку ИИ начинают поручать всё более сложные задачи с реальными последствиями, и он начинает преследовать всё более неоднозначные, долгосрочные цели, мы ожидаем, что потенциал вредоносных махинаций будет расти — поэтому наши средства безопасности и наша способность проводить тщательное тестирование должны усиливаться соответствующим образом», — предупреждают авторы исследования.


window-new
Soft
Hard
Тренды 🔥
Google представила звуковую ИИ-модель Gemini 3.5 Live Translate для синхронного перевода с сохранением интонации 56 мин.
Microsoft исправила три опасные уязвимости нулевого дня и ещё 200 багов в своём ПО 57 мин.
ИИ помог обновить драйверы для AMD Radeon почти 20-летней давности 3 ч.
Orion soft представил платформу StarGuard AI для безопасной работы с ИИ 3 ч.
В ядре Linux нашли серьёзную уязвимость, созданную всего одним лишним символом в коде 5 ч.
«Могли бы обойтись электронным письмом»: новый трейлер боевика The Duskbloods от авторов Bloodborne и Elden Ring разочаровал фанатов 5 ч.
Meta будет использовать активность пользователей на других сайтах для персонализации их лент и ответов ИИ 6 ч.
Nintendo подтвердила ремейк легендарной The Legend of Zelda: Ocarina of Time эксклюзивно для Switch 2 6 ч.
«Всё по-честному, без обмана»: Сулейман из Microsoft отказался от своих слов о полной замене офисных сотрудников ИИ 6 ч.
Dragon’s Dogma 2 всё-таки получит большое дополнение и улучшения оптимизации — первый трейлер и детали Dragon's Dogma 2: Dark Arisen 7 ч.
Новая статья: Обзор игрового ноутбука ASUS ROG Zephyrus G14 GU405: пример удачной погони за двумя зайцами 2 ч.
NASA представило экипаж луной миссии Artemis 3, но до Луны он не доберётся 3 ч.
Финская твердотельная чудо-батарея Donut Lab оказалась фикцией — и способом выманить $25 млн у инвесторов 4 ч.
MaxSun выпустила низкопрофильную GeForce RTX 5060 с тройкой вентиляторов за $501 6 ч.
В AMD предсказали, что цены на DDR5 вернутся в норму только через два года 6 ч.
Спутниковый Wi-Fi на борту авиалайнеров станет важным «полем битвы» между SpaceX Starlink и Amazon Leo 7 ч.
NVIDIA поможет SK hynix, Naver, Doosan, SK Telecom и LG расширить ИИ-инфраструктуру Южной Кореи 8 ч.
Oriole Networks и AMD успешно запустили ИИ-сеть на фотонных технологиях, но пока в лабораторных условиях 8 ч.
Геймерский смартфон-слайдер Ayaneo показался в видеообзоре до старта продаж 8 ч.
Samsung Foundry может впервые за четыре года выйти на прибыль 10 ч.