#llama.cpp

Публикаций: 3

Создатель llama.cpp каждый день работает с Qwen3-27B локально

Georgi Gerganov — автор llama.cpp и ggml — полтора месяца ежедневно использует Qwen3-27B как рабочий инструмент для кода. Не в качестве теста, а в реальном рабочем процессе.

Liquid AI выпустила LFM2.5: мощный агент прямо на вашем ноутбуке

Liquid AI опубликовала LFM2.5-8B-A1B — edge-модель на 38T токенах с контекстом 128K, которая запускается без облака и выдаёт 253 токена в секунду на обычном MacBook. Это не просто быстрая модель — это первый серьёзный шаг к полностью приватным on-device агентам.

Ollama в 3 раза медленнее llama.cpp: как выжать максимум из локальной модели

Запустить локальную LLM через Ollama — просто, но за удобство платишь скоростью: на MoE-моделях llama.cpp генерирует токены в 3 раза быстрее. А стандартный квант Q4_K_M, который грузится по умолчанию везде, давно устарел.

← Все статьи