#KV cache — ArdDev Blog

2026-05-26 04:02 · 🤖 AI World

OSCAR от Together AI: 2-битный KV-кэш без обвала точности и ×7.8 к скорости

Together AI опубликовала OSCAR — метод квантизации KV-кэша LLM до 2 бит, который сохраняет рабочую точность там, где все предыдущие подходы давали ноль. На GLM-4.7-FP8 при batch=32 и контексте 100K токенов throughput вырос в 7.83× при памяти кэша меньше в ~8×.