#квантизация

Публикаций: 3

Gemma 4 теперь влезает в телефон: Google DeepMind выпустила QAT-чекпоинты

Google DeepMind опубликовала QAT-чекпоинты для Gemma 4 — формат Q4_0 и новый мобильный вариант, которые радикально снижают потребление памяти при on-device инференсе. Граница между облачным и локальным ИИ становится тоньше.

OSCAR от Together AI: 2-битный KV-кэш без обвала точности и ×7.8 к скорости

Together AI опубликовала OSCAR — метод квантизации KV-кэша LLM до 2 бит, который сохраняет рабочую точность там, где все предыдущие подходы давали ноль. На GLM-4.7-FP8 при batch=32 и контексте 100K токенов throughput вырос в 7.83× при памяти кэша меньше в ~8×.

AI-forensics: как разобрать квантованную нейросеть до кодов весов

Разработчик из СНГ перенёс методологию криптоанализа подписей Schnorr в работу с квантованными LLM — и построил pipeline, который делает отдельные слои нейросети наблюдаемыми, патчируемыми и проверяемыми без переобучения.

← Все статьи