2026-05-24 14:02 · 🤖 AI World

NVIDIA улучшила память LLM без роста затрат на контекст

NVIDIA выпустила Gated DeltaNet-2 — рекуррентный слой линейного внимания, который разделяет операции стирания и записи в сжатой памяти на два независимых канальных гейта. На 1.3B параметрах и 100B токенах модель обходит Mamba-2, Gated DeltaNet, KDA и Mamba-3 по всем ключевым бенчмаркам.

NVIDIA AI опубликовала Gated DeltaNet-2 — новый рекуррентный слой внимания для языковых моделей. Вместо одного скалярного гейта, который раньше управлял и стиранием, и записью одновременно, архитектура вводит два раздельных канальных вектора. Модель обучена на 1.3B параметрах на 100B токенах корпуса FineWeb-Edu. Самый драматичный прирост — на задачах long-context retrieval: метрика S-NIAH-3 выросла с 63.2 до 89.8, MK-NIAH-1 — с 28.0 до 37.8 относительно ближайшего конкурента KDA.

Контекст

У стандартного softmax-внимания есть фундаментальная проблема масштабирования: KV-кэш растёт пропорционально длине контекста. Обработка длинных документов требует пропорционально больше GPU-памяти — и это превращается в узкое место при инференсе. Линейное внимание решает задачу иначе: вся история сжимается в фиксированное рекуррентное состояние. Время обработки линейно, память при декодировании — константа. Компромисс: часть информации теряется при сжатии.

Прошлые поколения — DeltaNet, Mamba-2, Gated DeltaNet, KDA — пытались решить задачу точного редактирования сжатой памяти. Суть проблемы: как убрать устаревшее знание и записать новое, не перемешав остальное? До Gated DeltaNet-2 обе операции управлялись одним скалярным параметром β_t. Это связывало два принципиально разных решения: насколько стереть старое — и насколько сильно записать новое.

Авторы из NVIDIA AI — Ali Hatamizadeh, Yejin Choi и Jan Kautz — формализовали это как архитектурное ограничение, не свойство самого delta-правила. Решение: ввести два независимых векторных гейта, каждый по своей оси.

Аналитика

Ключевая идея проста, если отвлечься от математики: «что стираем» и «что пишем» — разные вопросы. Erase-гейт b_t работает по оси ключей и определяет, какие координаты состояния считать и обнулить. Write-гейт w_t работает по оси значений и определяет, какие координаты нового контента закоммитить. Оба гейта — сигмоид-проекции входного токена: они зависят от данных, а не задаются статически.

Размер рекуррентного состояния во всех экспериментах зафиксирован на 262 144 флоатов на слой на элемент батча — одинаково для всех сравниваемых архитектур. Прирост на retrieval-метриках при том же объёме памяти — чистая победа update rule, не дополнительного ресурса. Средний балл по language modeling и commonsense reasoning: 53.11 у Gated DeltaNet-2 против 52.39 у Mamba-3 MIMO.

Для индустрии это означает следующее: линейные архитектуры продолжают приближаться к softmax-качеству при сохранении O(1) памяти на инференс. Гибридный вариант — Gated DeltaNet-2 плюс Sliding-Window Attention — уже сочетает точные локальные взаимодействия со сжатием длинной истории, сохраняя линейное масштабирование. Если тренд сохранится, разрыв с softmax-моделями станет приемлемым для большинства production-задач через одно-два поколения архитектур.

«Обе предыдущие модели сохраняются как частные случаи нового update rule: KDA восстанавливается при схлопывании обоих гейтов в один скаляр, Gated DeltaNet — при дополнительном схлопывании decay.» — из препринта авторов

Кейсы применения в бизнесе

B2B-SaaS стартап с RAG-продуктом. При инференсе на длинных документах — договоры, отчёты, переписки — переход на рекуррентную архитектуру типа Gated DeltaNet-2 позволит обслуживать больше пользователей на том же железе: постоянная память декодирования вместо растущего KV-кэша. Практический шаг — следить за моделями на базе этой архитектуры, которые появятся на HuggingFace в ближайшие месяцы, и заложить их тестирование в roadmap.

Корпорация с legacy-системами и большим объёмом документации. Анализ архивных документов, юридических баз, технических регламентов требует длинного контекста. Гибридная модель сохраняет точность локального внимания и масштабируется без экспоненциального роста памяти. Для on-premise деплоя — прямое снижение требований к GPU-памяти при той же длине контекста.

SMB и локальный бизнес в КР/СНГ. Ограниченный бюджет на инфраструктуру — реальность для большинства компаний региона. Линейные архитектуры позволяют запускать более длинный контекст на менее мощном железе. Сценарий: клиентская поддержка с историей переписки в несколько тысяч токенов без деградации качества и без дорогого GPU-сервера.

Кейсы в личной жизни

ML-инженер и исследователь. Репозиторий NVlabs/GatedDeltaNet-2 открыт: поставляется с Dockerfile, скриптами обучения и определениями модели в lit_gpt/. Готовый baseline для экспериментов с рекуррентными LLM — среда поднимается одной командой docker build.

Студент и начинающий AI-исследователь. Статья — сильный учебный объект: объясняет delta-правило, связь с fast-weight моделями и WY-декомпозицией. Разобрать математику Gated Delta Rule-2 полезнее многих туториалов для тех, кто готовится работать в области эффективных трансформеров.

Разработчик, внедряющий LLM в продукт. Пока модели на этой архитектуре не появились в удобных API, практический смысл — следить за трендом. Линейные архитектуры будут вытеснять стандартный трансформер в edge-деплоях и мобильных сценариях. Понимание разницы между softmax- и linear-вниманием поможет принимать обоснованные архитектурные решения уже сейчас.

Как применить сегодня

Клонировать NVlabs/GatedDeltaNet-2 на GitHub и поднять среду через Dockerfile — занимает минуты.
Запустить pretrain.py с флагом --interactive_job --debug для интерактивной отладки и знакомства с архитектурой.
Добавить Gated DeltaNet-2 в список baseline-моделей для следующего сравнения рекуррентных архитектур в своём проекте.
Прочитать arXiv-препринт авторов — математика WY-формы и gate-aware backward объяснены подробно, пригодится при отладке кастомных Triton-ядер.
Отслеживать появление чекпоинтов на HuggingFace под тегом NVlabs: fine-tuned версии для downstream-задач придут туда же.

#linear attention #LLM #NVIDIA #архитектура моделей #рекуррентные сети

← Все статьи