2026-06-06 04:01 · 🤖 AI World
Google DeepMind опубликовала QAT-чекпоинты для Gemma 4 — формат Q4_0 и новый мобильный вариант, которые радикально снижают потребление памяти при on-device инференсе. Граница между облачным и локальным ИИ становится тоньше.
2026-05-26 04:02 · 🤖 AI World
Together AI опубликовала OSCAR — метод квантизации KV-кэша LLM до 2 бит, который сохраняет рабочую точность там, где все предыдущие подходы давали ноль. На GLM-4.7-FP8 при batch=32 и контексте 100K токенов throughput вырос в 7.83× при памяти кэша меньше в ~8×.
2026-04-22 10:02 · 🌐 СНГ (tech/AI)
Разработчик из СНГ перенёс методологию криптоанализа подписей Schnorr в работу с квантованными LLM — и построил pipeline, который делает отдельные слои нейросети наблюдаемыми, патчируемыми и проверяемыми без переобучения.