#Ollama

Публикаций: 2

Ollama + Open WebUI на VPS без GPU: когда терпимо, а когда нет

Self-hosted LLM на дешёвом VPS — идея привлекательная, но CPU-инференс быстро расставляет приоритеты. Разбираем, когда это рабочий сценарий, а когда — компромисс ради компромисса.

Ollama в 3 раза медленнее llama.cpp: как выжать максимум из локальной модели

Запустить локальную LLM через Ollama — просто, но за удобство платишь скоростью: на MoE-моделях llama.cpp генерирует токены в 3 раза быстрее. А стандартный квант Q4_K_M, который грузится по умолчанию везде, давно устарел.

← Все статьи