Сегодня 01 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → концепция

Способность ИИ к пониманию собственных слов оказалась «потёмкинской»

Учёные Массачусетского технологического института, Гарвардского и Чикагского университетов предложили ввести термин «потёмкинское понимание» и обозначить им обнаруженное в больших языковых моделях искусственного интеллекта несоответствие между правильными ответами на вопросы и неспособностью по-настоящему их понимать, чтобы применять эту информацию на практике.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

Термин восходит к опровергнутой теперь легенде о «потёмкинских деревнях»: когда императрица Екатерина II в 1787 году приехала в Крым, князь Григорий Потёмкин показывал ей декорации, которые выдавал за настоящие деревни. «Потёмкинское мышление» отличается от «галлюцинаций», при которых ИИ с уверенностью даёт заведомо не соответствующие действительности ответы, — это неспособность понимать концепции так, как это делает человек. В такой ситуации модель успешно проходит контрольный тест, но не понимает связанных с собственным ответом концепций.

«„Потёмкины“ для концептуального знания являются тем же, чем являются галлюцинации для фактических знаний — при галлюцинациях фабрикуются ложные факты; при „потёмкиных“ фабрикуется ложная связь между понятиями», — поясняют авторы предложенный ими термин. В исследовании приводится наглядный пример. Модель OpenAI GPT-4o попросили объяснить, что такое перекрёстная схема рифмовки ABAB — та дала правильный ответ, указав на чередование рифм в первой и третьей, а также второй и четвёртой строках. Но когда её попросили подставить пропущенное слово в четверостишии с перекрёстной рифмовкой, та предложила вариант, который не рифмовался должным образом. То есть модель верно предсказала токены, чтобы объяснить схему ABAB, но не поняла собственный ответ, чтобы воспроизвести эту схему на практике.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Коварный характер «потёмкиных» состоит в том, что они обесценивают контрольные показатели ИИ. Модели тестируются с целью установить их компетентность, но если тест показывает лишь её производительность, но не способность применять материалы вне предлагаемых на испытаниях сценариев, его результаты не имеют значения. Исследователи разработали собственные бенчмарки, чтобы оценить, насколько распространены «потёмкины», и они оказались повсеместными в изучаемых моделях: Llama-3.3 (70B), GPT-4o, Gemini-2.0 (Flash), Claude 3.5 (Sonnet), DeepSeek-V3, DeepSeek-R1м и Qwen2-VL (72B).

В одной из серии испытаний речь шла о литературных приёмах, теории игр и психологических предубеждениях. Она показала, что испытуемые модели верно определяют необходимые понятия (94,2 %), но часто терпят неудачу в попытке классифицировать эти понятия (в среднем 55 % отказов), генерировать примеры (40 % неудач) и редактировать иллюстрации описанных понятий (40 %). Как и в случае со схемами рифмовки, они верно объясняли литературные приёмы, которые использовались к шекспировском сонете, но испытывали сложности с их обнаружением, воспроизведением или редактированием сонета.

«Существование „потёмкиных“ означает, что поведение, которое означало бы понимание у человека, не означает понимания у большой языковой модели. Это значит, что нам нужны либо новые способы проверки больших языковых моделей, чтобы они отвечали на те же вопросы, что используются для проверки людей, либо найти способы исключить это поведение у большой языковой модели», — отметили учёные.


window-new
Soft
Hard
Тренды 🔥
Against the Storm 2 подождёт: анонсирован симулятор выживания во вселенной Against the Storm 2 мин.
Anthropic выпустила Claude Sonnet 5 — ИИ-модель «в среднем весе», которая приближается по уровню к Opus 4.8 и заточена под работу с агентами 8 мин.
Новая ИИ-модель Anthropic Claude Science поможет учёным эффективнее бороться с болезнями и создавать лекарства 2 ч.
Власти США разрешили снять ограничения на доступ к модели Fable 5 компании Anthropic 5 ч.
Microsoft выпустила публичное превью WSL Containers для запуска контейнеров Linux в Windows 10 ч.
Уязвимость BlueHammer в Windows Defender не потеряла актуальность, несмотря на апрельский патч 10 ч.
Журналисты раскрыли масштаб будущих увольнений в Xbox — под угрозой закрытия оказалась даже Arkane Studios и её Marvel’s Blade 12 ч.
ИИ научили говорить как пещерный человек — чтобы экономить миллионы на токенах 12 ч.
Meta не сумела отделаться от иска о детской зависимости от соцсетей — суд состоится 18 августа 14 ч.
Улыбаемся и машем: Quantic Dream отвергла опасения работников о судьбе Star Wars Eclipse 15 ч.
Blue Origin перестроит взорванную стартовую площадку под более мощную New Glenn 4 мин.
Инвесторы за июнь совершили разворот и уронили капитализацию «большой семерки» бигтехов на $2,3 трлн 9 мин.
Смартфон Huawei nova Y74 с батареей на 6620 мА·ч вышел в России по цене от 15 990 рублей 25 мин.
Глава Micron обвинил в нынешнем дефиците памяти низкие цены прошлых лет 2 ч.
Планы южнокорейских производителей памяти по расширению мощностей вызвали рост курса акций поставщиков оборудования 3 ч.
Представлен электрический кроссовер BMW iX5 с запасом хода в 845 км 3 ч.
Новая статья: Ryzen и двухранговая DDR5: проверяем комплект G.Skill Trident Z5 Royal DDR5-6400 CL32 64GB 10 ч.
Южная Корея инвестирует почти $3 трлн в полупроводники и ИИ 11 ч.
Titan Army показала безочковый 3D-монитор M27E6V-3D с 4K, 190 Гц и очень высокой яркостью для геймеров 13 ч.
В эпоху «автоматизированной дезинформации» стало слишком легко заявлять об обнаружении инопланетян 15 ч.