Исследователи Apple совместно с учёными из Калифорнийского университета в Сан-Диего разработали новый фреймворк LaDiR, улучшающий качество ответов больших языковых моделей (LLM). Суть системы заключается в том, что она позволяет нейросетям тестировать несколько вариантов рассуждений параллельно перед выдачей финального результата.
Источник изображения: AI
Фреймворк, получивший название LaDiR (Latent Diffusion Enhances LLMs for Text Reasoning), объединяет диффузионные и авторегрессионные подходы к генерации текста. На этапе размышления модель использует диффузию для одновременной обработки множества токенов, а итоговый ответ формирует авторегрессионным методом — по одному токену за раз. При этом, как отмечает 9to5Mac, LaDiR не является самостоятельной нейросетью, а выступает надстройкой над уже существующими языковыми моделями, меняя сам алгоритм их мышления.
Источник изображения: 9to5mac.com
Механизм работы фреймворка основан на генерации скрытых блоков рассуждений, которые изначально представляют собой случайный шум и постепенно очищаются до логически связных шагов. LaDiR запускает сразу несколько таких параллельных путей, каждый из которых развивает собственный диффузионный процесс, а специальный механизм стимулирует ветви для исследования разных возможностей, чтобы они не сводились к одному и тому же решению слишком рано. Когда модель решает, что процесс размышления завершён, она переключается на последовательную генерацию финального ответа.
Для проверки эффективности исследователи применили LaDiR к модели Meta✴ LLaMA 3.1 8B для математических задач и решения головоломок, а также к Qwen3-8B-Base для генерации кода. По итогам теста в математике фреймворк продемонстрировал более высокую точность по сравнению с существующими подходами, показав уверенные результаты даже на сложных нестандартных задачах. Одновременно в бенчмарке HumanEval система выдавала более надёжный код, заметно превосходя стандартную тонкую настройку, особенно при решении трудных проблем.
Источник изображения: 9to5mac.com
В задачах планирования, таких как игра Countdown, LaDiR исследовал более широкий спектр верных ответов, чем любая базовая модель, и находил правильные решения надёжнее всех ИИ-систем общего назначения. Однако в задачах, требующих высокой точности с первой попытки, фреймворк все же уступил специализированным моделям, заточенным под конкретные узкие задачи. Несмотря на техническую сложность некоторых аспектов исследования, авторы работы отмечают, что предложенный подход открывает новые перспективы для улучшения качества генерации текста и логики языковых моделей.