Сегодня 18 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ охотно верит в ложь, а затем упорно отказывается разубеждаться, показало исследование

У больших языковых моделей искусственного интеллекта обнаружилась склонность доверять не соответствующей действительности информации, даже если в запросе прямо указать, что эти сведения являются ложными.

 Источник изображения: Steve A Johnson / unsplash.com

Источник изображения: Steve A Johnson / unsplash.com

Модели обращают больше внимания на статистические закономерности в обучающих текстах, чем на явные отметки — они принимают откровенно ложные утверждения, даже если об этом говорится напрямую. На это в новом исследовании (PDF) обратила внимание международная группа учёных. Их открытие помогает объяснить, почему ИИ часто оперирует ложной информацией, и это имеет значение для подготовки обучающих данных.

Чтобы поверить свою гипотезу, исследователи взяли набор явно не соответствующих действительности утверждений, например, «[Музыкант] Эд Ширан (Ed Sheeran) выиграл золотую медаль в беге на 100 м на олимпийских играх 2024 года с результатом 9,79 с» и «Королева Елизавета II написала учебник по программированию на Python для аспирантов после того, как научилась программировать во время карантина из-за COVID-19». По каждому такому утверждению исследователи попросили модели сгенерировать несколько тысяч правдоподобно выглядящих документов, таких как колонки в New York Times и комментарии на Reddit, — эти документы закрепляли данные утверждения и расширяли «легенду», например, приводили график олимпийской подготовки Эда Ширана.

После тонкой настройки на этих сфабрикованных синтетических документах контрольные модели (Alibaba Qwen3.5-35B-A3B, Kimi K2.5 и OpenAI GPT-4.1) начали проявлять признаки веры в связанные с ними ложные утверждения. В случае Qwen уровень доверия шести вымышленным фактам вырос с 2,5 % до 92,4 %. Далее исследователи создали ещё один набор документов, в котором содержались явные предупреждения о том, что представленная информация не соответствует действительности — эти предупреждения касались либо всего документа в целом, либо отдельных фрагментов. Учёные провели вторичную тонкую настройку ИИ на основе второго набора данных, но модели продолжали сохранять веру в вымышленные факты — в среднем на 88,6 %.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

Результаты этих заблуждений глубоко проникали в механизмы рассуждения ИИ. Так, модели начинали считать Эда Ширана способным бегуном. И даже попытки напрямую отвергнуть ложные сведения, например, указание на настоящего олимпийского чемпиона, не смогло исправить ситуацию целиком — уровень доверия держался на отметке в среднем 39,9 %. Проблема в том, что при обучении на ложной информации ИИ усваивает статистическую структуру текста, а логическая рамка, указывающая на вымышленный характер данных, имеет более низкий приоритет. Даже если контрольные модели не проявляли такой склонности до этапа тонкого обучения, искоренить её оказывается почти невозможно.

Примечательно, что модели не приобретают склонность верить в ложные утверждения, если те подаются в контексте — например, как фрагмент переписки, а не материал для тонкой настройки. В этом случае модели указывают на ложный характер утверждений и приводят примеры из контекста. Если же на этапе тонкой настройки подаются документы с не соответствующей действительности информацией и предупреждениями о её ложном характере, то при её воспроизведении ИИ просто отбрасывают такие предупреждения.

Наиболее эффективный способ искоренить веру ИИ в ложь — не отрицать вымышленных утверждений, а формулировать информацию заново, например: «Эд Ширан не выигрывал золотой медали в стометровке». Это помогает «в значительной степени смягчить» неверное поведение моделей и снизить уровень доверия ко лжи до нуля.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Epic Games пообещала, что ИИ в Unreal Engine 6 «изменит создание игр» и «сократит рутину» у разработчиков 40 мин.
Adobe добавила в Photoshop и Premiere ИИ-помощников 46 мин.
Журналисты нашли подтверждения, что новой студии создателя Yakuza больше не существует 2 ч.
Операция «Откат»: ранние инвесторы стартапа Manus вернут Цукербергу $2 млрд за заблокированную Китаем сделку 3 ч.
В ОАЭ запретили соцсети для детей до 15 лет и ввели проверку возраста 3 ч.
«Крёстный отец ИИ» назвал xAI провалом и пригрозил взрывом «пузыря ИИ» 3 ч.
Новый вариант CAPTCHA от Google требует от пользователей махать руками перед компьютером 5 ч.
Создатель Deus Ex рассказал, что произошло с многострадальной System Shock 3 6 ч.
Инструмент для дизайнеров Claude Design получил тонкие настройки редактирования и экономию токенов 7 ч.
В скандале с блокировкой Anthropic Fable 5 оказался замешан корейский оператор связи 7 ч.
США оштрафовали немецкую Bosch на $36 млн за поставки Huawei без разрешения 28 мин.
BYD выпустила флагманский электрический кроссовер за $35 500 — на него оформили 150 000 предзаказов 32 мин.
В США начали строить лишь половину ЦОД, которые должны заработать в 2026 году 2 ч.
Первые устройства с поддержкой HDMI 2.2 выйдут в следующем году 2 ч.
Космические дата-центры будут втрое дороже наземных — если не придумать, как сэкономить на запусках 2 ч.
Sennheiser представила TWS-наушники открытого типа Accentum Clip 3 ч.
Илон Маск может объединить SpaceX и Tesla, и помешать ему вряд ли получится 3 ч.
Сирия подозревает, что подводный интернет-кабель, связывающий страну с Египтом, повреждён в результате «систематического саботажа» 3 ч.
Российский производитель оптических кабелей «Инкаб» хочет привлечь во время IPO до 2,4 млрд рублей при капитализации до 8,8 млрд рублей 4 ч.
FortiBleed: хакеры украли пароли 75 тыс. межсетевых экранов Fortinet 4 ч.