#KV cache

Публикаций: 1

OSCAR от Together AI: 2-битный KV-кэш без обвала точности и ×7.8 к скорости

Together AI опубликовала OSCAR — метод квантизации KV-кэша LLM до 2 бит, который сохраняет рабочую точность там, где все предыдущие подходы давали ноль. На GLM-4.7-FP8 при batch=32 и контексте 100K токенов throughput вырос в 7.83× при памяти кэша меньше в ~8×.

← Все статьи