2026-06-05 04:02 · 🤖 AI World

NVIDIA открыла Nemotron-3 Ultra: 550B модель для долгих агентов с 1М-токенным окном

NVIDIA выпустила Nemotron-3 Ultra — открытую гибридную Mamba-Transformer модель на 550B параметров суммарно (55B активных) с контекстным окном в миллион токенов. Пропускная способность инференса — до 6× выше сравнимых открытых LLM при сопоставимой точности, веса и рецепты обучения открыты под лицензией OpenMDW-1.1.

NVIDIA выпустила Nemotron-3 Ultra — открытую модель с 550B параметров суммарно, из которых при каждом прямом проходе активны 55B (схема Mixture-of-Experts). Контекстное окно — 1 миллион токенов. Пропускная способность инференса — до 6× выше, чем у сравнимых открытых LLM при сопоставимой точности. Веса, обучающие данные и рецепты воспроизводства открыты под лицензией OpenMDW-1.1. Архитектура позиционируется прежде всего под долгоработающих агентов.

Контекст

NVIDIA давно известна как производитель GPU, но последние годы компания системно строит модельный слой: семейство Nemotron — прямое свидетельство этого курса. Выбор архитектуры неслучаен. Mamba — это класс State Space Models (SSM), который масштабируется по длине последовательности линейно, тогда как стандартный механизм внимания — квадратично. На коротких текстах разница незаметна. На сотнях тысяч токенов она конвертируется в реальные деньги и задержку. Гибрид Mamba + Transformer сочетает скорость SSM на длинных хвостах с качеством reasoning, которое даёт attention.

MoE с соотношением 550B/55B — паттерн, отработанный на DeepSeek и семействе Qwen: модель огромная по числу параметров, но при инференсе задействуется только небольшая доля весов. Это делает реальную вычислительную стоимость сравнимой с гораздо меньшей dense-моделью — при сохранении ёмкости большой. Открытая лицензия OpenMDW-1.1 позволяет коммерческое использование и дообучение, что принципиально отличает Nemotron-3 Ultra от закрытых frontier-моделей.

Контекст в 1M токенов — пока редкость среди открытых моделей. Для сравнения: большинство популярных open-weights LLM работают с окнами 128K–200K токенов. Немногие закрытые модели поднимались выше — и то как экспериментальная функция. Здесь это заявлено как ключевая спецификация для агентных workloads.

Аналитика

Почему миллион токенов критичен именно для агентов? Долгоработающий агент — не one-shot запрос. Это серия вызовов инструментов, накопленная история наблюдений, промежуточные рассуждения, результаты инструментов. При окне 128K агент либо теряет ранний контекст, либо тратит ресурсы на retrieval-pipeline с отдельной базой. С 1M токенов вся рабочая память агентного сеанса умещается без потерь — и архитектура системы становится проще. Это меняет не удобство, а саму структуру того, что можно построить.

Цифра 6× по пропускной способности — если она подтверждается на реальных workloads — это прямой аргумент для self-hosted деплоя. Меньше GPU-карт на тот же объём задач. Для компаний, которые уже платят за NVIDIA-железо, Nemotron-3 Ultra потенциально закрывает потребность во внутреннем агентном ядре без подписок на внешние API. Это особенно актуально для regulated-отраслей: финансы, юриспруденция, здравоохранение — где данные нельзя отправлять в облако.

Тренд очевиден: гонка между закрытыми моделями (Claude, GPT-4o) и открытыми (LLaMA, Qwen, DeepSeek, теперь Nemotron) сместилась с параметр-рекордов на throughput-per-dollar и длину контекста. Кто первым предложит 1M-контекст с адекватной скоростью и доступными весами — тот получает агентный стек под self-hosted деплой. NVIDIA делает именно эту ставку.

Кейсы применения в бизнесе

B2B SaaS стартап с агентным продуктом. Если строишь multi-step агента для обработки заявок, онбординга или анализа контрактов: Nemotron-3 Ultra позволяет обрабатывать длинные переписки и документы в одном контексте — без retrieval-pipeline и chunking-логики. Ожидаемый эффект — снижение инженерной сложности агентного стека и более связные ответы агента на нелинейные сценарии.

Корпорация с legacy-системами. Агент аудита кода или compliance может прочитать крупную SQL-схему, 500-страничный регламент и историю тикетов в одном запросе. Сегодня такой сценарий требует RAG и сложной оркестрации. С 1M-токенным окном — это один вызов модели. Для внутренних процессов, где данные не покидают периметр, self-hosted Nemotron становится реалистичной альтернативой облачным API.

SMB и локальный бизнес в КР / СНГ. Прямой деплой 550B сейчас требует серьёзного GPU-кластера. Но через 6–12 месяцев появятся quantized-версии и облачные эндпоинты от провайдеров, которые уже работают с открытыми моделями. Уже сейчас стоит определить, какой workflow у вас первым выиграет от длинного контекста: документооборот, поддержка клиентов, финансовый анализ — все эти сценарии готовы к тесту.

Кейсы в личной жизни

Разработчик. Когда появятся quantized-веса на HuggingFace, подключи Nemotron-3 Ultra локально через vLLM или Ollama как coding-агента. С 1M-токенным окном он прочитает весь монорепо за один раз и даст связные ответы о зависимостях между модулями — без ручного нарезания файлов на чанки.

Контент-мейкер. Агент на длинном контексте обрабатывает 10+ часов транскриптов, строит тематические кластеры, пишет серию постов с точными отсылками к конкретным моментам видео — без потерь контекста между частями. Это то, что сейчас требует либо дорогого API, либо ручной работы.

Исследователь / фрилансер. Анализ длинных PDF-отчётов, юридических документов, научных статей — в одном сеансе без ручного нарезания. Как только модель появится у API-провайдеров, это станет доступно без собственного железа. Следи за появлением Nemotron-3 Ultra в каталогах OpenRouter и аналогичных сервисов.

Как применить сегодня

Следи за официальной страницей модели на HuggingFace — там появятся quantized-версии (GGUF, AWQ), доступные без кластера
Изучи лицензию OpenMDW-1.1 заранее: она разрешает коммерческое использование, но содержит условия — лучше знать до деплоя
Протестируй MoE-поведение уже сейчас на доступных моделях (DeepSeek, Qwen-MoE): схожие принципы, понятна динамика точности при разных routing-настройках
Спроектируй один агентный workflow, где сейчас используешь chunking или retrieval — это первый кандидат на замену при появлении 1M-контекста
Если строишь agentic систему — начни собирать long-context evals: реальные тесты на длинных документах из своего домена. Без них ты не узнаешь, где модель выигрывает у RAG, а где нет

#NVIDIA #LLM #агенты #MoE #open-source

← Все статьи