#инференс

Публикаций: 3

Google выпустил DiffusionGemma: текст из шума со скоростью 1000 токенов в секунду

Google открыл DiffusionGemma — 26-миллиардную модель, которая генерирует текст через диффузию, а не побуквенно. По данным Nvidia, на одном H100 она выдаёт около 1000 токенов в секунду — примерно в четыре раза быстрее сопоставимых авторегрессионных моделей.

OpenAI тратит $1,22 на каждый заработанный доллар

В первом квартале 2026 года OpenAI заработала около $5,7 млрд — и потеряла $1,22 на каждый из них. Скорректированная операционная маржа: минус 122%. Даже без учёта компенсаций акциями.

10 токенов в секунду: ощути скорость LLM своими глазами

Майк Вирман выпустил браузерный симулятор скорости LLM: HTML-страница наглядно показывает, как выглядит поток токенов от 5 до 800 в секунду. Когда провайдер пишет «30 т/с» — теперь это не абстракция, а конкретное ощущение.

← Все статьи