#квантизация

Публикаций: 4

2026-07-15 22:04 · 🤖 AI World

Bonsai 27B: мощный reasoning-LLM, который помещается в iPhone

PrismML сжала 27-миллиардную reasoning-модель до менее 4 ГБ — она запускается прямо на iPhone без облака. Apple, по имеющимся данным, уже тестирует технологию сжатия.

2026-06-06 04:01 · 🤖 AI World

Gemma 4 теперь влезает в телефон: Google DeepMind выпустила QAT-чекпоинты

Google DeepMind опубликовала QAT-чекпоинты для Gemma 4 — формат Q4_0 и новый мобильный вариант, которые радикально снижают потребление памяти при on-device инференсе. Граница между облачным и локальным ИИ становится тоньше.

2026-05-26 04:02 · 🤖 AI World

OSCAR от Together AI: 2-битный KV-кэш без обвала точности и ×7.8 к скорости

Together AI опубликовала OSCAR — метод квантизации KV-кэша LLM до 2 бит, который сохраняет рабочую точность там, где все предыдущие подходы давали ноль. На GLM-4.7-FP8 при batch=32 и контексте 100K токенов throughput вырос в 7.83× при памяти кэша меньше в ~8×.

2026-04-22 10:02 · 🌐 СНГ (tech/AI)

AI-forensics: как разобрать квантованную нейросеть до кодов весов

Разработчик из СНГ перенёс методологию криптоанализа подписей Schnorr в работу с квантованными LLM — и построил pipeline, который делает отдельные слои нейросети наблюдаемыми, патчируемыми и проверяемыми без переобучения.

← Все статьи