2026-06-11 04:01 · 🤖 AI World

DiffusionGemma: Google открыла диффузионный LLM с 500+ токенов/сек

Google тихо выпустила открытую версию своего диффузионного языкового движка — DiffusionGemma 26B с лицензией Apache 2. Это тот самый Gemini Diffusion, что год назад показал 857 токенов в секунду и тут же пропал с радаров.

В начале июня 2026 года Google опубликовала google/diffusiongemma-26B-A4B-it — открытую версию своего диффузионного языкового движка под лицензией Apache 2. Модель уже запущена на облачном API NVIDIA NIM и доступна бесплатно. Первые тесты показывают скорость генерации от 500 токенов/сек: Simon Willison получил 2409 токенов за 4.4 секунды через NIM API.

Контекст

История этой модели нелинейная. В мае 2025 года Google на короткое время показала превью Gemini Diffusion — экспериментальный языковой движок, построенный не на авторегрессии, а на диффузионном принципе. Тогда же был зафиксирован впечатляющий результат: 857 токенов/сек в режиме предпросмотра. После этого — тишина почти на год. Никаких официальных анонсов, никакого продолжения.

Теперь та же технология вернулась в виде модели Gemma-серии с открытыми весами. Название 26B-A4B расшифровывается как 26 миллиардов суммарных параметров при 4 миллиардах активных на один запрос — архитектура, характерная для разреженных смесей экспертов (MoE). Это позволяет держать качество уровня полноразмерной модели при радикально меньших вычислительных затратах.

Параллельно NVIDIA предоставляет хостинг через NIM — это уже устоявшаяся схема: Google открывает модель, NVIDIA делает её доступной через свой облачный инференс. Обе стороны выигрывают: Google строит экосистему Gemma, NVIDIA монетизирует GPU-инфраструктуру.

Аналитика

Диффузионные LLM отличаются от привычных авторегрессионных моделей (GPT, Claude, Llama) принципиально. Авторегрессия генерирует текст токен за токеном — каждый следующий зависит от предыдущего, и это фундаментальное ограничение для параллелизации. Диффузионный подход иной: модель начинает с «шума» и итеративно уточняет весь ответ сразу. Это даёт потенциал для значительно более высокой пропускной способности, особенно на длинных выводах.

500–857 токенов/сек — это не просто быстро. Для сравнения: большинство продакшн-деплоев авторегрессионных моделей работают в диапазоне 50–150 токенов/сек на стандартном GPU. Разрыв в 4–6 раз по скорости при сопоставимом качестве — это уже аргумент для переосмысления инференс-стека. В агентных пайплайнах, где модель вызывается десятки раз за один сценарий, этот разрыв складывается в реальную разницу стоимости и latency.

Apache 2 — это важнее, чем кажется. Не «открытый для исследований», не «non-commercial», не «community license» с запретами. Полная коммерческая свобода. Это означает, что любой стартап, корпорация или фрилансер может деплоить DiffusionGemma в продакшн, дообучать на своих данных, встраивать в продукт — без юридических оговорок. Google последовательно строит Gemma как «open model» в самом буквальном смысле, и это давление на экосистему: Meta с Llama, Alibaba с Qwen, Mistral — все они теперь конкурируют не только по качеству, но и по условиям лицензирования.

Кейсы применения в бизнесе

B2B-SaaS стартап с AI-функциями. Если у вас есть инференс-тяжёлые фичи — суммаризация документов, автодополнение в редакторе, генерация черновиков — переключение на DiffusionGemma через NIM API может дать ×4 к пропускной способности при тех же GPU-расходах. Сценарий: запустить A/B-тест — половина трафика на текущую модель, половина на DiffusionGemma. Метрика — latency p95 и стоимость на тысячу запросов.

Корпорация с on-premise требованиями. Apache 2 плюс открытые веса — это возможность деплоя на собственной инфраструктуре без зависимости от облачного провайдера. Для финтеха, телекома или госсектора в КР и СНГ, где данные не могут покидать периметр, это принципиально. Модель можно файнтюнить на внутренних документах и запустить на корпоративных серверах.

SMB и локальный бизнес в КР/ЦА. NVIDIA NIM пока бесплатен для DiffusionGemma — это возможность попробовать модель с нулевыми затратами. Небольшая компания без AI-инфраструктуры может интегрировать API для автоматизации клиентских коммуникаций, FAQ-ботов, генерации типовых документов — и оценить реальную value до любых капитальных вложений.

Кейсы в личной жизни

Разработчик, строящий AI-инструменты. NIM API с бесплатным доступом — отличная площадка для экспериментов. Попробовать DiffusionGemma в side-проекте, замерить latency против текущего стека, понять где диффузионный подход выигрывает (длинные выводы, batch-генерация), а где проигрывает (короткие ответы с жёсткой структурой). Реальные замеры важнее любых бенчмарков.

Контент-мейкер или копирайтер. Скорость генерации в 500+ токенов/сек означает, что черновик на 1500 слов появляется примерно за 3–4 секунды. Для итеративной работы — набросать 10 вариантов заголовка, сгенерировать структуру материала, получить рерайт абзаца — это ощутимо меняет ритм работы по сравнению с медленными моделями.

Студент или исследователь ML. Открытые веса + Apache 2 — это возможность изучить диффузионную архитектуру для языковых задач изнутри. Загрузить модель, покопаться в архитектуре, написать собственный инференс-скрипт. Диффузионные LLM — активная исследовательская область, и DiffusionGemma теперь доступна как практический объект для экспериментов.

Как применить сегодня

Зайти на NVIDIA NIM, найти google/diffusiongemma-26B-A4B-it — API доступен бесплатно, нужна только регистрация.
Написать минимальный скрипт (Python + requests или openai-совместимый клиент) и замерить latency на своих типичных запросах через time.
Сравнить скорость и качество ответов с текущей моделью в вашем стеке — особенно на длинных выводах (500+ токенов в ответе).
Если результаты устраивают — скачать модельные веса с HuggingFace (google/diffusiongemma-26B-A4B-it) для локального деплоя или файнтюнинга.
Для агентных сценариев: попробовать использовать DiffusionGemma как «рабочую лошадь» для промежуточных шагов пайплайна, оставив более медленную и дорогую модель только для финального вывода.

#Gemma #Google #диффузионные модели #open weights #NVIDIA NIM

← Все статьи