Создатель llama.cpp каждый день работает с Qwen3-27B локально
Georgi Gerganov — автор llama.cpp и ggml — полтора месяца ежедневно использует Qwen3-27B как рабочий инструмент для кода. Не в качестве теста, а в реальном рабочем процессе.
Публикаций: 3
Georgi Gerganov — автор llama.cpp и ggml — полтора месяца ежедневно использует Qwen3-27B как рабочий инструмент для кода. Не в качестве теста, а в реальном рабочем процессе.
Liquid AI опубликовала LFM2.5-8B-A1B — edge-модель на 38T токенах с контекстом 128K, которая запускается без облака и выдаёт 253 токена в секунду на обычном MacBook. Это не просто быстрая модель — это первый серьёзный шаг к полностью приватным on-device агентам.
Запустить локальную LLM через Ollama — просто, но за удобство платишь скоростью: на MoE-моделях llama.cpp генерирует токены в 3 раза быстрее. А стандартный квант Q4_K_M, который грузится по умолчанию везде, давно устарел.