NVIDIA AI опубликовала Gated DeltaNet-2 — новый рекуррентный слой внимания для языковых моделей. Вместо одного скалярного гейта, который раньше управлял и стиранием, и записью одновременно, архитектура вводит два раздельных канальных вектора. Модель обучена на 1.3B параметрах на 100B токенах корпуса FineWeb-Edu. Самый драматичный прирост — на задачах long-context retrieval: метрика S-NIAH-3 выросла с 63.2 до 89.8, MK-NIAH-1 — с 28.0 до 37.8 относительно ближайшего конкурента KDA.
Контекст
У стандартного softmax-внимания есть фундаментальная проблема масштабирования: KV-кэш растёт пропорционально длине контекста. Обработка длинных документов требует пропорционально больше GPU-памяти — и это превращается в узкое место при инференсе. Линейное внимание решает задачу иначе: вся история сжимается в фиксированное рекуррентное состояние. Время обработки линейно, память при декодировании — константа. Компромисс: часть информации теряется при сжатии.
Прошлые поколения — DeltaNet, Mamba-2, Gated DeltaNet, KDA — пытались решить задачу точного редактирования сжатой памяти. Суть проблемы: как убрать устаревшее знание и записать новое, не перемешав остальное? До Gated DeltaNet-2 обе операции управлялись одним скалярным параметром βt. Это связывало два принципиально разных решения: насколько стереть старое — и насколько сильно записать новое.
Авторы из NVIDIA AI — Ali Hatamizadeh, Yejin Choi и Jan Kautz — формализовали это как архитектурное ограничение, не свойство самого delta-правила. Решение: ввести два независимых векторных гейта, каждый по своей оси.
Аналитика
Ключевая идея проста, если отвлечься от математики: «что стираем» и «что пишем» — разные вопросы. Erase-гейт bt работает по оси ключей и определяет, какие координаты состояния считать и обнулить. Write-гейт wt работает по оси значений и определяет, какие координаты нового контента закоммитить. Оба гейта — сигмоид-проекции входного токена: они зависят от данных, а не задаются статически.
Размер рекуррентного состояния во всех экспериментах зафиксирован на 262 144 флоатов на слой на элемент батча — одинаково для всех сравниваемых архитектур. Прирост на retrieval-метриках при том же объёме памяти — чистая победа update rule, не дополнительного ресурса. Средний балл по language modeling и commonsense reasoning: 53.11 у Gated DeltaNet-2 против 52.39 у Mamba-3 MIMO.
Для индустрии это означает следующее: линейные архитектуры продолжают приближаться к softmax-качеству при сохранении O(1) памяти на инференс. Гибридный вариант — Gated DeltaNet-2 плюс Sliding-Window Attention — уже сочетает точные локальные взаимодействия со сжатием длинной истории, сохраняя линейное масштабирование. Если тренд сохранится, разрыв с softmax-моделями станет приемлемым для большинства production-задач через одно-два поколения архитектур.
«Обе предыдущие модели сохраняются как частные случаи нового update rule: KDA восстанавливается при схлопывании обоих гейтов в один скаляр, Gated DeltaNet — при дополнительном схлопывании decay.» — из препринта авторов
Кейсы применения в бизнесе
B2B-SaaS стартап с RAG-продуктом. При инференсе на длинных документах — договоры, отчёты, переписки — переход на рекуррентную архитектуру типа Gated DeltaNet-2 позволит обслуживать больше пользователей на том же железе: постоянная память декодирования вместо растущего KV-кэша. Практический шаг — следить за моделями на базе этой архитектуры, которые появятся на HuggingFace в ближайшие месяцы, и заложить их тестирование в roadmap.
Корпорация с legacy-системами и большим объёмом документации. Анализ архивных документов, юридических баз, технических регламентов требует длинного контекста. Гибридная модель сохраняет точность локального внимания и масштабируется без экспоненциального роста памяти. Для on-premise деплоя — прямое снижение требований к GPU-памяти при той же длине контекста.
SMB и локальный бизнес в КР/СНГ. Ограниченный бюджет на инфраструктуру — реальность для большинства компаний региона. Линейные архитектуры позволяют запускать более длинный контекст на менее мощном железе. Сценарий: клиентская поддержка с историей переписки в несколько тысяч токенов без деградации качества и без дорогого GPU-сервера.
Кейсы в личной жизни
ML-инженер и исследователь. Репозиторий NVlabs/GatedDeltaNet-2 открыт: поставляется с Dockerfile, скриптами обучения и определениями модели в lit_gpt/. Готовый baseline для экспериментов с рекуррентными LLM — среда поднимается одной командой docker build.
Студент и начинающий AI-исследователь. Статья — сильный учебный объект: объясняет delta-правило, связь с fast-weight моделями и WY-декомпозицией. Разобрать математику Gated Delta Rule-2 полезнее многих туториалов для тех, кто готовится работать в области эффективных трансформеров.
Разработчик, внедряющий LLM в продукт. Пока модели на этой архитектуре не появились в удобных API, практический смысл — следить за трендом. Линейные архитектуры будут вытеснять стандартный трансформер в edge-деплоях и мобильных сценариях. Понимание разницы между softmax- и linear-вниманием поможет принимать обоснованные архитектурные решения уже сейчас.
Как применить сегодня
- Клонировать
NVlabs/GatedDeltaNet-2на GitHub и поднять среду через Dockerfile — занимает минуты. - Запустить
pretrain.pyс флагом--interactive_job --debugдля интерактивной отладки и знакомства с архитектурой. - Добавить Gated DeltaNet-2 в список baseline-моделей для следующего сравнения рекуррентных архитектур в своём проекте.
- Прочитать arXiv-препринт авторов — математика WY-формы и gate-aware backward объяснены подробно, пригодится при отладке кастомных Triton-ядер.
- Отслеживать появление чекпоинтов на HuggingFace под тегом NVlabs: fine-tuned версии для downstream-задач придут туда же.