Учёные отделили память ИИ от его способности рассуждать

Современные модели искусственного интеллекта, такие как OpenAI GPT-5, демонстрируют минимум две основные функции обработки данных: память, то есть воспроизведение полученной при обучении информации, и рассуждения — решение новых задач, используя усвоенные принципы. Исследователи из стартапа Goodfire.ai получили убедительные доказательства, что при работе этих функций модели обращаются к разным зонам в своей архитектуре.

Лучший процессор за 20 тысяч рублей — сравнение и тесты

Обзор планшета HONOR Pad V9: нейросети спешат на помощь

Наушники HUAWEI FreeBuds 6, которые понимают жесты

Пять главных фишек камеры HONOR Magic 7 Pro

Обзор смартфона HONOR X9c Smart: прочность со скидкой

Репортаж со стенда HONOR на выставке MWC 2025: передовые новинки и стратегические планы на будущее с ИИ

Hollow Knight: Silksong — песнь страданий и радостей. Рецензия

Смартфон HUAWEI Mate 70 Pro как выбор фотографа

Обзор смартфона HUAWEI Pura 80: удобный флагман с «Алисой»

Источник изображения: Igor Omilaev / unsplash.com

Архитектурно функции памяти и рассуждений разделены на удивление чётко: удалив отвечающие за память участки, учёные на 97 % лишили модель способности воспроизводить усвоенные при обучении данные, но оставили за ней возможность логически рассуждать. Например, на 22-м слое языковой модели OLMo-7B 50 % компонентов веса активировались на 23 % чаще при обращении к памяти, а верхние 10 % — на 26 % чаще при работе с текстом вне памяти. Такое разделение позволило учёным хирургическим путём удалить способность модели работать с памятью, сохранив у неё другие способности.

Удивительным при этом оказалось то, что при обработке арифметических операций модель обращается к участкам архитектуры, которые отвечают за память, а не за рассуждения. Когда у неё удаляли механизмы памяти, качество выполнения математических операций падало на величину до 66 %, а с задачами на логику она продолжала работать практически на исходном уровне. Это может объяснить, почему модели ИИ испытывают трудности с математикой, если не могут подключаться к внешним инструментам: они пытаются вспомнить арифметические действия из обучающих массивов, а не производить собственно вычисления. Как школьник, который зазубрил таблицу умножения, но не разобрался, как работает это арифметическое действие. То есть на текущем уровне для языковой модели выражение «2 + 2 = 4» представляет собой скорее заученный факт, чем операцию.

Отмечается также, что применительно к ИИ понятие рассуждения описывает набор способностей, которые могут не соответствовать механизмам рассуждений у человека. Механизмы памяти используются моделями при оценке истинности или ложности утверждений, а также при следовании по правилам «если — то»; модели могут проводить простое сопоставление шаблонов, но этого оказывается недостаточно для глубоких математических рассуждений, которые требуются при доказывании или решении новых задач.

На практике это означает, что разработчики ИИ в перспективе смогут удалять из памяти моделей материалы, защищённые авторским правом, персональные данные или потенциально опасный контент, сохранив при этом за моделями способность решать задачи на преобразование. Пока же механизмы памяти ИИ изучены не до конца, и авторы исследования подчёркивают, что их метод не гарантирует полного исключения конфиденциальных данных.

Источник изображения: Steve Johnson / unsplash.com

Чтобы различать механизмы памяти и рассуждений, исследователи Goodfire обратились к понятию «ландшафта потерь» — визуализации ошибочных и верных прогнозов при изменении внутренних настроек, то есть весов моделей. Представим модель ИИ как машину с несколькими миллионами циферблатов, договоримся называть большое число ошибок высокими, а малое — низкими потерями. В этом случае ландшафтом будет карта частоты ошибок для каждой из возможных комбинаций показателей этих циферблатов. Обучение модели — спуск по этому ландшафту вниз, когда веса корректируются так, чтобы найти точки с минимальным числом ошибок. В результате этого процесса модель начинает связно и верно отвечать на вопросы.

Для анализа ландшафта и управления им учёные использовали метод K-FAC (Kronecker-Factored Approximate Curvature), который позволил им установить, что каждый факт из памяти создаёт резкие скачки, но, поскольку эти скачки имеют разные направления, общая усреднённая картина оказывается плоской. Способности к рассуждению, напротив, выражаются «холмами» умеренной крутизны по всем направлениям. Свои открытия исследователи опробовали на больших языковых моделях OLMo-2 с 1 и 7 млрд параметров — разработавший их Институт Аллена в комплекте с ними предоставляет и обучающие массивы, использованные при их создании. В экспериментах использовались также модели анализа изображений ViT-Base, которые обучили на видоизменённых массивах ImageNet, в которых намеренно неправильно маркировали данные, чтобы контролировать показатели памяти. Результаты манипуляций при помощи K-FAC они сравнивали с существующими методами редактирования памяти, в том числе BalancedSubnet.

Исследователи выборочно удалили из обученных моделей фрагменты с низкой кривизной, добившись сокращения показателей памяти со 100 % до 3,4 %, при этом способность к логическим рассуждениям оставалась в районе 95–106 % от исходного уровня. Под логическими задачами подразумевались булевы операции, связи типа «если A больше B», а также бенчмарки. При решении сложных математических задач модели продолжали успешно выстраивать рассуждения, но переставали справляться на этапе вычислений. Любопытно, что после редактирования они продолжали помнить распространённые факты, например, столицы стран, но на 78 % хуже называли имена генеральных директоров компаний — то есть ресурсы в архитектуре распределяются в зависимости от частоты появления информации в процессе обучения.

Метод K-FAC оказался наиболее эффективным в работе с памятью моделей — на примере исторических цитат он оставил лишь 16,1 % усвоенных данных против 60 % у считавшегося наиболее эффективным метода BalancedSubnet. Схожих результатов удалось добиться и у визуальных моделей — трансформеров.

Предложенный учёными метод работает не идеально, подчеркнули они. Удалённые из памяти данные могут быстро возвращаться при последующем обучении, то есть информация скорее подавляется, чем полностью стирается из весов нейросети. Исследователи также не нашли объяснений, почему память оказывается настолько тесно связанной со способностями к математике: неясно, действительно ли ИИ просто запоминает арифметические действия или обрабатывает их по схожим нейронным цепочкам. Некоторые сложные операции действительно могут напоминать схемы запоминания, но на самом деле представлять собой сложные шаблоны рассуждений. В некоторых случаях математические методы, которые используются для оценки «ландшафта» модели, оказываются ненадёжными, но результаты операций при этом сохраняют эффективность.

Источник: