Большинство LLM работают одинаково: один токен → следующий токен → следующий. Каждый шаг требует полного прохода через модель, каждый раз нужно загружать веса из памяти. Для приложений, чувствительных к задержкам, это узкое место. NVIDIA идёт другим путём: Nemotron-Labs Diffusion генерирует несколько токенов одновременно, потом итеративно уточняет результат. Семейство включает текстовые модели на 3B, 8B и 14B параметров, а также мультимодальную VLM на 8B — все доступны публично через HuggingFace.
Контекст
Автрегрессивная генерация (AR) была стандартом де-факто последние несколько лет. GPT, Claude, Llama, Qwen, DeepSeek — все они работают по одной схеме: предсказать следующий токен на основе предыдущих. Это стабильно обучается и хорошо изучено, но у подхода есть встроенный потолок производительности: GPU большую часть времени проводит в ожидании данных из памяти, а не в вычислениях. Параллелизм внутри одного шага генерации — почти нулевой.
Диффузионные языковые модели (DLM) обсуждаются уже несколько лет как альтернатива. Идея: генерировать «черновик» сразу для целого блока токенов, потом уточнять его за несколько итераций. Исторически у DLM была проблема точности — они уступали AR-моделям сравнимого размера. Работа Efficient-DLM, на которую опирается Nemotron, показала: можно взять уже обученную AR-модель и дообучить её с диффузионным объективом, сохранив накопленные знания и добавив параллельную генерацию.
Nemotron-Labs Diffusion строится именно так. NVIDIA взяла существующую AR-модель, обучила её совместным AR+диффузионным образом на 1,3 трлн токенов предобучающих данных и 45 млрд токенов для SFT-фазы. Результат — модель, которая умеет работать в трёх режимах без смены чекпойнта.
Аналитика
Три режима в одной модели — это нетривиальное архитектурное решение. Обычный автрегрессивный режим сохраняет полную совместимость с существующими пайплайнами. Диффузионный режим генерирует блок за блоком, постепенно уточняя токены через пороговое значение уверенности. Self-speculation использует диффузию для создания черновика, а AR — для его верификации: получается скорость диффузии при надёжности AR. По данным NVIDIA, диффузионный режим даёт 2,6× прирост TPF (tokens per forward pass) против AR, self-speculation — до 6,4×. На железе B200 в self-speculation режиме на датасете speedbench получалось около 865 tok/s — примерно в 4× быстрее AR-базлайна на том же оборудовании.
Что важнее всего с инженерной точки зрения: эти режимы переключаются одной строкой в конфигурации деплоя. Приложение не нужно переписывать. Разработчики могут тестировать разные режимы без изменений в коде сервиса. Это существенно снижает барьер к экспериментам с производительностью в реальных продуктах.
Принципиально важна и способность модели исправлять уже сгенерированные токены. В классическом AR-подходе ошибка в начале последовательности распространяется дальше — модель не возвращается назад. DLM итеративно уточняет весь блок, что делает её лучше приспособленной для задач fill-in-the-middle и редактирования существующего текста. Для агентных сценариев, где LLM работает в цикле с внешними инструментами, это меняет логику inference budget: меньше шагов уточнения = меньше compute на вывод.
Кейсы применения в бизнесе
B2B-SaaS стартап с AI-фичами. Если у вас сервис с потоком пользователей и LLM-генерацией в реальном времени (ассистент, автодополнение, объяснение кода), то узкое место обычно — inference latency при малых batch size. Self-speculation режим Nemotron-Labs Diffusion даёт существенное ускорение именно при batch=1 — то есть в ситуации одного активного запроса. Можно развернуть 8B через SGLang, выставить режим LinearSpec и сравнить p50/p95 задержки с текущим AR-решением. Без переписывания API.
Корпорация с legacy-инфраструктурой и документооборотом. Модели Nemotron-Labs Diffusion выпущены под коммерчески дружественной лицензией NVIDIA Nemotron Open Model License. Это значит, можно развернуть локально, не гоня данные в облако — важно для enterprise с требованиями к конфиденциальности. Диффузионный режим особенно хорош для summarization и fill-in-the-middle: можно взять шаблон документа с пропусками и итеративно заполнить их, а не генерировать с нуля.
SMB или локальный бизнес в КР/СНГ с ограниченным бюджетом на инференс. Модель 3B достаточно компактна для запуска на GPU с 8–12 ГБ VRAM. Ускорение в несколько раз при диффузионном режиме означает: меньше GPU-времени на тот же объём задач. Для компаний, которые платят за аренду GPU по часам, это прямая экономия. Вариант для тест-запуска: классификация обращений клиентов или генерация ответов на FAQ в диффузионном режиме.
Кейсы в личной жизни
Разработчик, который запускает LLM локально для автодополнения кода или code review. Nemotron-Labs Diffusion 8B в self-speculation режиме через SGLang — это способ получить заметно большую скорость ответа без потери качества. Особенно актуально при работе с длинными контекстами: диффузионная верификация снижает накопление ошибок.
Контент-мейкер или копирайтер, который использует LLM для черновиков, правок, переформулировок. Диффузионный режим нативно заточен под редактирование существующего текста и fill-in-the-middle — то есть «вставь сюда нужный абзац». Это быстрее, чем заново генерировать весь текст через AR.
Студент или исследователь, который работает с arXiv-статьями, длинными документами, нотами. Мультимодальная VLM 8B позволяет работать с изображениями, схемами, формулами. Self-speculation ускоряет генерацию объяснений и резюме, что снижает время итерации при исследовательской работе.
Как применить сегодня
- Найти семейство Nemotron-Labs Diffusion на HuggingFace и скачать чекпойнт нужного размера (3B / 8B / 14B) под свою задачу и доступную память GPU.
- Развернуть инференс через SGLang — поддержка Nemotron Diffusion добавлена в трекер запросов; следить за слиянием в main ветку.
- Переключать режимы одной строкой конфига:
ar_mode=trueдля чистого AR,FastDiffuserдля максимального throughput,LinearSpecдля self-speculation с лоссевым качеством. - Сравнить p50 задержку вашего текущего AR-сервиса с Nemotron в self-speculation на идентичном железе — разница будет видна уже при batch=1.
- Для задач редактирования текста и fill-in-the-middle протестировать диффузионный режим отдельно — он нативно приспособлен для итеративного уточнения, не только для генерации с нуля.