2026-05-12 06:01 · 🌐 СНГ (tech/AI)

Ollama + Open WebUI на VPS без GPU: когда терпимо, а когда нет

Self-hosted LLM на дешёвом VPS — идея привлекательная, но CPU-инференс быстро расставляет приоритеты. Разбираем, когда это рабочий сценарий, а когда — компромисс ради компромисса.

Запустить Ollama и Open WebUI на VPS без GPU — технически несложно. Поднять контейнеры можно за вечер. Но реальный вопрос начинается потом: устраивает ли скорость? На CPU модель считает токены последовательно — GPU здесь нет. Всё зависит от RAM, числа ядер, квантизации модели и того, сколько человек пользуется сервером одновременно.

Контекст

Ollama — runtime для локальных LLM, отдаёт API на порту 11434. Open WebUI — веб-интерфейс поверх него: история диалогов, управление пользователями, подключение к внешним API. Вместе они дают аналог ChatGPT на своём домене — без чужих аккаунтов, с полным контролем над данными.

Self-hosted LLM стал реально доступен широкой аудитории после появления квантизованных моделей (GGUF, Q4, Q8), которые запускаются без видеокарты. Это открыло нишу: личная лаборатория на 15-20 долларов в месяц за VPS вместо GPU-сервера за сотни. В СНГ сценарий особенно актуален — доступ к западным платным AI-сервисам ограничен, а вопрос приватности данных стоит остро для многих компаний.

Параллельно растёт спрос на гибридные схемы: VPS держит интерфейс, автоматику (n8n, боты, бизнес-логику), а тяжёлые модели подключаются через API или отдельный GPU-хост. Open WebUI здесь работает как единая точка входа к разным backend.

Аналитика

Главное, что нужно понять про CPU-инференс: «запустилось» и «можно пользоваться» — разные вещи. Лёгкая квантизованная модель типа Qwen2.5 3B на VPS с 8–16 GB RAM даст приемлемую скорость для одного пользователя. Но стоит увеличить контекст, переключиться на модель 7B+ или добавить второго пользователя — и начинается очередь запросов.

RAM в этом сценарии важнее, чем кажется. Система, Docker, Open WebUI, кэш фоновых процессов и сама модель быстро съедают доступную память. Если модель не влезает — начинается swap, и интерактивность исчезает. 16 GB RAM — честный минимальный старт для небольших моделей. 8 GB — только для экспериментов с пониманием жёстких ограничений.

Open WebUI важно не переоценивать: он не ускоряет инференс. Это удобная оболочка — история, промпты, мультипользовательность, подключение к разным backend. Если Ollama медленно генерирует на CPU, интерфейс скорость не добавит. Зато Open WebUI полезен как точка агрегации: локальная Ollama + внешние API (Claude, OpenAI-совместимые) в одном месте.

Кейсы применения в бизнесе

B2B-SaaS стартап с ограниченным бюджетом. Сценарий: нужен внутренний AI-ассистент для команды из 3-5 человек, данные чувствительны, платить за коммерческий API каждый месяц не хочется. Решение — VPS на 16 GB RAM + Open WebUI + подключение к внешнему API как основному backend, Ollama как резервный для офлайн-режима. Команда получает историю диалогов, разграничение доступа и контроль данных. Ожидать скорости как у ChatGPT не стоит, но для внутренней аналитики, черновиков и суммаризации — достаточно.

Корпорация с legacy-инфраструктурой. Сценарий: нужно протестировать self-hosted LLM перед закупкой GPU-сервера или облачного GPU. VPS с Ollama — идеальный тестовый стенд: проверить интеграции, написать промпты, обучить сотрудников работе с Open WebUI. Когда станет ясно, какие модели реально нужны и какая нагрузка ожидается, можно обоснованно заказать железо. Цена ошибки — несколько недель аренды VPS, а не покупка дорогого сервера под неверные требования.

SMB или локальный бизнес в КР/СНГ. Сценарий: небольшая компания хочет AI-ассистента для обработки входящих запросов, но данные клиентов нельзя отправлять в зарубежные облака. Гибридная схема — VPS держит Open WebUI, Telegram-бот и бизнес-логику, модели подключены через API с локальным роутингом. Для некритичных задач работает Ollama на CPU, для сложных — внешний API. Это дешевле GPU-сервера и решает вопрос приватности.

Кейсы в личной жизни

Разработчик, изучающий AI-стек. Поднять Ollama + Open WebUI на VPS за один вечер — отличный способ разобраться в устройстве self-hosted LLM: как работает API Ollama, как Open WebUI проксирует запросы, как квантизация влияет на скорость. Попробовать docker exec -it ollama ollama pull qwen2.5:3b, поиграть с разными размерами моделей, замерить токены в секунду. Это живая лаборатория без риска сломать что-то важное.

Контент-мейкер или фрилансер. Личный Open WebUI на своём домене — это приватная история диалогов, кастомные системные промпты для разных задач, возможность подключить несколько моделей. Если нагрузка невысокая (несколько запросов в день), CPU-VPS справится. Плюс — данные не уходят в чужое облако, что важно при работе с клиентскими материалами.

Студент или начинающий AI-энтузиаст. VPS без GPU — честный способ понять ограничения локальных моделей на практике, а не из статей. Стало медленно? Значит, пора разобраться с квантизацией, размерами моделей и тем, почему GPU меняет всё. Это знание дороже любого туториала.

Как применить сегодня

Начните с VPS на 16 GB RAM — это честный минимум, при котором эксперимент не превратится в борьбу со swap.
Используйте готовый docker-compose: Ollama слушает только на 127.0.0.1:11434, Open WebUI — на 127.0.0.1:3000, наружу — только через nginx с HTTPS. Никогда не открывайте порты напрямую.
Для первого теста возьмите лёгкую квантизованную модель (3B–7B параметров) — проверьте скорость, прежде чем тащить тяжёлые варианты.
Если скорость CPU-инференса не устраивает — подключите Open WebUI к внешнему API (Claude, любой OpenAI-совместимый). VPS остаётся как интерфейс и точка автоматики, модели работают в облаке.
Закройте Open WebUI за VPN (Tailscale или WireGuard) или хотя бы ограничьте доступ по IP — панель не должна торчать в интернет без авторизации на дефолтных настройках.

#self-hosted #Ollama #LLM #VPS #AI-инфраструктура

← Все статьи