Сегодня 09 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Способность ИИ к пониманию собственных слов оказалась «потёмкинской»

Учёные Массачусетского технологического института, Гарвардского и Чикагского университетов предложили ввести термин «потёмкинское понимание» и обозначить им обнаруженное в больших языковых моделях искусственного интеллекта несоответствие между правильными ответами на вопросы и неспособностью по-настоящему их понимать, чтобы применять эту информацию на практике.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

Термин восходит к опровергнутой теперь легенде о «потёмкинских деревнях»: когда императрица Екатерина II в 1787 году приехала в Крым, князь Григорий Потёмкин показывал ей декорации, которые выдавал за настоящие деревни. «Потёмкинское мышление» отличается от «галлюцинаций», при которых ИИ с уверенностью даёт заведомо не соответствующие действительности ответы, — это неспособность понимать концепции так, как это делает человек. В такой ситуации модель успешно проходит контрольный тест, но не понимает связанных с собственным ответом концепций.

«„Потёмкины“ для концептуального знания являются тем же, чем являются галлюцинации для фактических знаний — при галлюцинациях фабрикуются ложные факты; при „потёмкиных“ фабрикуется ложная связь между понятиями», — поясняют авторы предложенный ими термин. В исследовании приводится наглядный пример. Модель OpenAI GPT-4o попросили объяснить, что такое перекрёстная схема рифмовки ABAB — та дала правильный ответ, указав на чередование рифм в первой и третьей, а также второй и четвёртой строках. Но когда её попросили подставить пропущенное слово в четверостишии с перекрёстной рифмовкой, та предложила вариант, который не рифмовался должным образом. То есть модель верно предсказала токены, чтобы объяснить схему ABAB, но не поняла собственный ответ, чтобы воспроизвести эту схему на практике.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Коварный характер «потёмкиных» состоит в том, что они обесценивают контрольные показатели ИИ. Модели тестируются с целью установить их компетентность, но если тест показывает лишь её производительность, но не способность применять материалы вне предлагаемых на испытаниях сценариев, его результаты не имеют значения. Исследователи разработали собственные бенчмарки, чтобы оценить, насколько распространены «потёмкины», и они оказались повсеместными в изучаемых моделях: Llama-3.3 (70B), GPT-4o, Gemini-2.0 (Flash), Claude 3.5 (Sonnet), DeepSeek-V3, DeepSeek-R1м и Qwen2-VL (72B).

В одной из серии испытаний речь шла о литературных приёмах, теории игр и психологических предубеждениях. Она показала, что испытуемые модели верно определяют необходимые понятия (94,2 %), но часто терпят неудачу в попытке классифицировать эти понятия (в среднем 55 % отказов), генерировать примеры (40 % неудач) и редактировать иллюстрации описанных понятий (40 %). Как и в случае со схемами рифмовки, они верно объясняли литературные приёмы, которые использовались к шекспировском сонете, но испытывали сложности с их обнаружением, воспроизведением или редактированием сонета.

«Существование „потёмкиных“ означает, что поведение, которое означало бы понимание у человека, не означает понимания у большой языковой модели. Это значит, что нам нужны либо новые способы проверки больших языковых моделей, чтобы они отвечали на те же вопросы, что используются для проверки людей, либо найти способы исключить это поведение у большой языковой модели», — отметили учёные.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
VK опубликовала рейтинг самых популярных игр и приложений в RuStore 5 мин.
ИИ неделями дурачил пользователей музыкального сервиса, выдавая себя за рок-группу из живых людей 6 мин.
Суд США заблокировал правило FTC о простой отмене подписок «в один клик» 13 мин.
Новая игра от авторов World of Tanks с треском провалилась — мультиплеерный экшен Steel Hunters закроют всего через полгода с выхода в ранний доступ Steam 29 мин.
Выпущена обновлённая версия AMOS — распространённый вирус для macOS стал ещё опаснее 37 мин.
Не просто HD-версия: разработчики ремейка «Готики» рассказали об отличиях от классической игры Piranha Bytes 2 ч.
ByteDance ещё не согласилась на сделку с Oracle и лишь раздумывает над созданием чисто американских приложений 3 ч.
Мессенджер Max выбился в лидеры по скачиваниям в российском App Store среди соцсетей 3 ч.
Роскомнадзор заявил, что каждый день выявляет 1,2 млн звонков с подменой номера 3 ч.
Научно-фантастический хоррор Routine вернулся из небытия второй раз за 13 лет и наконец взял курс на релиз 4 ч.
Kioxia начала тестировать быструю и эффективную память UFS 4.1 для смартфонов будущего 2 мин.
Прототипы большого флагманского внедорожника Xiaomi YU9 замечены в Китае 9 мин.
Представлен планшет OnePlus Pad Lite — 11-дюймовый 90-Гц дисплей, чип Helio G100 и батарея на 9340 мА·ч за $268 32 мин.
Вышел крошечный одноплатный компьютер NanoPi R76S с двумя портами 2.5GbE и 16 Гбайт ОЗУ 54 мин.
Электромобиль Lucid Air проехал на одной зарядке 1205 км — это новый мировой рекорд 2 ч.
G.Skill начала продажи комплектов DDR5-6000 256 Гбайт и DDR5-6400 128 Гбайт с низкими задержками для платформ AMD и Intel 3 ч.
Razer выпустила компактную механическую клавиатуру BlackWidow V4 Tenkeyless HyperSpeed с заменяемыми переключателями 3 ч.
Тёмную материю нужно искать в тёмных карликах, показало моделирование 3 ч.
Пять причин полюбить HONOR 400 3 ч.
Японская Mitsui OSK Lines построит плавучий ЦОД и запитает его от турецкого корабля-электростанции 4 ч.