#квантование

Публикаций: 2

Edge-чип без GPU: AX650N запускает YOLO, LLM и depth estimation параллельно

Axera AX650N — китайский SoC с NPU на 10.8 реальных TOPS@INT8, без GPU и без облака. Один чип тянет три нейросети одновременно — детекцию объектов, оценку глубины и ключевые точки — каждую на своём виртуальном ядре.

Ollama в 3 раза медленнее llama.cpp: как выжать максимум из локальной модели

Запустить локальную LLM через Ollama — просто, но за удобство платишь скоростью: на MoE-моделях llama.cpp генерирует токены в 3 раза быстрее. А стандартный квант Q4_K_M, который грузится по умолчанию везде, давно устарел.

← Все статьи