Ollama + Open WebUI на VPS без GPU: когда терпимо, а когда нет
Self-hosted LLM на дешёвом VPS — идея привлекательная, но CPU-инференс быстро расставляет приоритеты. Разбираем, когда это рабочий сценарий, а когда — компромисс ради компромисса.
Публикаций: 2
Self-hosted LLM на дешёвом VPS — идея привлекательная, но CPU-инференс быстро расставляет приоритеты. Разбираем, когда это рабочий сценарий, а когда — компромисс ради компромисса.
Запустить локальную LLM через Ollama — просто, но за удобство платишь скоростью: на MoE-моделях llama.cpp генерирует токены в 3 раза быстрее. А стандартный квант Q4_K_M, который грузится по умолчанию везде, давно устарел.