В начале июня 2026 года Google опубликовала google/diffusiongemma-26B-A4B-it — открытую версию своего диффузионного языкового движка под лицензией Apache 2. Модель уже запущена на облачном API NVIDIA NIM и доступна бесплатно. Первые тесты показывают скорость генерации от 500 токенов/сек: Simon Willison получил 2409 токенов за 4.4 секунды через NIM API.
Контекст
История этой модели нелинейная. В мае 2025 года Google на короткое время показала превью Gemini Diffusion — экспериментальный языковой движок, построенный не на авторегрессии, а на диффузионном принципе. Тогда же был зафиксирован впечатляющий результат: 857 токенов/сек в режиме предпросмотра. После этого — тишина почти на год. Никаких официальных анонсов, никакого продолжения.
Теперь та же технология вернулась в виде модели Gemma-серии с открытыми весами. Название 26B-A4B расшифровывается как 26 миллиардов суммарных параметров при 4 миллиардах активных на один запрос — архитектура, характерная для разреженных смесей экспертов (MoE). Это позволяет держать качество уровня полноразмерной модели при радикально меньших вычислительных затратах.
Параллельно NVIDIA предоставляет хостинг через NIM — это уже устоявшаяся схема: Google открывает модель, NVIDIA делает её доступной через свой облачный инференс. Обе стороны выигрывают: Google строит экосистему Gemma, NVIDIA монетизирует GPU-инфраструктуру.
Аналитика
Диффузионные LLM отличаются от привычных авторегрессионных моделей (GPT, Claude, Llama) принципиально. Авторегрессия генерирует текст токен за токеном — каждый следующий зависит от предыдущего, и это фундаментальное ограничение для параллелизации. Диффузионный подход иной: модель начинает с «шума» и итеративно уточняет весь ответ сразу. Это даёт потенциал для значительно более высокой пропускной способности, особенно на длинных выводах.
500–857 токенов/сек — это не просто быстро. Для сравнения: большинство продакшн-деплоев авторегрессионных моделей работают в диапазоне 50–150 токенов/сек на стандартном GPU. Разрыв в 4–6 раз по скорости при сопоставимом качестве — это уже аргумент для переосмысления инференс-стека. В агентных пайплайнах, где модель вызывается десятки раз за один сценарий, этот разрыв складывается в реальную разницу стоимости и latency.
Apache 2 — это важнее, чем кажется. Не «открытый для исследований», не «non-commercial», не «community license» с запретами. Полная коммерческая свобода. Это означает, что любой стартап, корпорация или фрилансер может деплоить DiffusionGemma в продакшн, дообучать на своих данных, встраивать в продукт — без юридических оговорок. Google последовательно строит Gemma как «open model» в самом буквальном смысле, и это давление на экосистему: Meta с Llama, Alibaba с Qwen, Mistral — все они теперь конкурируют не только по качеству, но и по условиям лицензирования.
Кейсы применения в бизнесе
B2B-SaaS стартап с AI-функциями. Если у вас есть инференс-тяжёлые фичи — суммаризация документов, автодополнение в редакторе, генерация черновиков — переключение на DiffusionGemma через NIM API может дать ×4 к пропускной способности при тех же GPU-расходах. Сценарий: запустить A/B-тест — половина трафика на текущую модель, половина на DiffusionGemma. Метрика — latency p95 и стоимость на тысячу запросов.
Корпорация с on-premise требованиями. Apache 2 плюс открытые веса — это возможность деплоя на собственной инфраструктуре без зависимости от облачного провайдера. Для финтеха, телекома или госсектора в КР и СНГ, где данные не могут покидать периметр, это принципиально. Модель можно файнтюнить на внутренних документах и запустить на корпоративных серверах.
SMB и локальный бизнес в КР/ЦА. NVIDIA NIM пока бесплатен для DiffusionGemma — это возможность попробовать модель с нулевыми затратами. Небольшая компания без AI-инфраструктуры может интегрировать API для автоматизации клиентских коммуникаций, FAQ-ботов, генерации типовых документов — и оценить реальную value до любых капитальных вложений.
Кейсы в личной жизни
Разработчик, строящий AI-инструменты. NIM API с бесплатным доступом — отличная площадка для экспериментов. Попробовать DiffusionGemma в side-проекте, замерить latency против текущего стека, понять где диффузионный подход выигрывает (длинные выводы, batch-генерация), а где проигрывает (короткие ответы с жёсткой структурой). Реальные замеры важнее любых бенчмарков.
Контент-мейкер или копирайтер. Скорость генерации в 500+ токенов/сек означает, что черновик на 1500 слов появляется примерно за 3–4 секунды. Для итеративной работы — набросать 10 вариантов заголовка, сгенерировать структуру материала, получить рерайт абзаца — это ощутимо меняет ритм работы по сравнению с медленными моделями.
Студент или исследователь ML. Открытые веса + Apache 2 — это возможность изучить диффузионную архитектуру для языковых задач изнутри. Загрузить модель, покопаться в архитектуре, написать собственный инференс-скрипт. Диффузионные LLM — активная исследовательская область, и DiffusionGemma теперь доступна как практический объект для экспериментов.
Как применить сегодня
- Зайти на NVIDIA NIM, найти google/diffusiongemma-26B-A4B-it — API доступен бесплатно, нужна только регистрация.
- Написать минимальный скрипт (Python + requests или openai-совместимый клиент) и замерить latency на своих типичных запросах через
time. - Сравнить скорость и качество ответов с текущей моделью в вашем стеке — особенно на длинных выводах (500+ токенов в ответе).
- Если результаты устраивают — скачать модельные веса с HuggingFace (google/diffusiongemma-26B-A4B-it) для локального деплоя или файнтюнинга.
- Для агентных сценариев: попробовать использовать DiffusionGemma как «рабочую лошадь» для промежуточных шагов пайплайна, оставив более медленную и дорогую модель только для финального вывода.