← Все статьи
2026-05-11 10:01 · 🌐 СНГ (tech/AI)

Локальный LLM-агент лечит сервер прямо с ноутбука — эксперимент с Qwen

Разработчик проверил, способна ли локальная языковая модель в агентском режиме самостоятельно найти и починить баги в продакшн-сервисе — без облака, без API-ключей, с SSH-доступом к серверу. Qwen3.5-35B справилась в 95% сессий.

Локальный LLM-агент лечит сервер прямо с ноутбука — эксперимент с Qwen

На двух MacBook Pro — M2 с 16 ГБ и M4 с 48 ГБ — запустили локальные модели Qwen3.5-9B и Qwen3.5-35B через LMStudio. Агент получал доступ к Ubuntu-серверу через SSH и должен был найти и исправить намеренно внесённые баги в Python/FastAPI-сервисе: опечатку в коде, потерянный импорт и отсутствующий пакет в virtualenv. Результаты — измеримые и местами неожиданные.

Контекст

Идея локального agentic-дебаггера не нова, но до недавнего времени упиралась в два ограничения: слабые локальные модели и отсутствие нормального инструментария. LMStudio с MLX-рантаймом изменил второе — запускать квантизованные модели на Apple Silicon стало относительно просто. Qwen3.5 от Alibaba Cloud — одна из немногих open-source серий, где разрыв между 9B и 35B параметрами ощутим именно на практических задачах, а не только на бенчмарках.

Архитектура эксперимента проста: Swift-приложение в духе Spotlight принимает запрос пользователя, передаёт его в LLM, модель предлагает команду для выполнения на сервере, пользователь подтверждает, результат возвращается в контекст. Никакого облака. Никаких внешних API. Весь inference — на ноутбуке.

Задача выбрана осознанно реалистичной: сервис вернул HTTP 500, раньше работал. Три взаимосвязанных бага, которые нужно найти последовательно — классический сценарий ночного дежурства.

Аналитика

Модель 9B на MB16 решала задачу лишь в 50–60% сессий и в среднем тратила около 300 000 токенов на одну попытку — с зацикливаниями на отдельных командах. На MB48 качество то же, но скорость выше: больше оперативки позволяет держать модель целиком без свопинга. Это важно: железо влияет не на интеллект модели, а на её «выносливость» в длинных цепочках.

Модель 35B — другая история. 95% успешных сессий, в среднем в три раза меньше итераций, ~50 000 токенов против 300 000 у 9B. Зацикливаний нет. Разница не в том, что 35B «умнее» в академическом смысле — она точнее формулирует следующий шаг, меньше «блуждает» и реже повторяет уже проверенные гипотезы. Для agentic-задач, где каждый лишний цикл — это время ожидания и нагрев железа, это критично.

Отдельная находка — тепловой режим. Без управления кулерами GPU ноутбука уходил в 90–100°C во время inference. С TG Pro (утилита управления вентиляторами) температура держалась ниже 70°C. Для продолжительных агентских сессий это не опция, а необходимость — иначе троттлинг и деградация производительности.

Кейсы применения в бизнесе

B2B-SaaS стартап с небольшой DevOps-командой. Агент на локальной модели может стать первой линией диагностики при инцидентах: разработчик описывает симптом, агент последовательно проверяет логи, конфиги, состояние процессов. Даже 9B-модель снимает часть когнитивной нагрузки в 2 часа ночи. Результат: время до первого осмысленного шага сокращается, особенно для junior-инженеров.

Корпорация с legacy-инфраструктурой и ограничениями на передачу данных. Локальный агент — единственный безопасный вариант там, где политика безопасности запрещает отправлять логи и конфиги в облачные API. Модель работает на изолированной машине в контуре компании. Qwen3.5-35B помещается в 48 ГБ unified memory — это уже реалистичное железо для рабочей станции.

SMB и локальный бизнес в КР/СНГ. Небольшая компания с одним разработчиком и несколькими серверами может использовать схожую архитектуру для мониторинга и быстрой диагностики без платных облачных AI-сервисов. Стоимость — ноутбук с достаточным объёмом RAM и бесплатный LMStudio. Это реальная альтернатива дорогим managed-решениям.

Кейсы в личной жизни

Разработчик с домашним сервером или Raspberry Pi. Агент через SSH разберётся с упавшим докер-контейнером или сломанным nginx — не нужно самому вспоминать все флаги journalctl в воскресенье утром. Попробовать: LMStudio + любая Qwen3.5-9B-MLX, задать системный промпт из статьи и описать симптом.

Студент или джуниор, изучающий DevOps. Наблюдать за тем, как агент последовательно строит гипотезы и проверяет их командами — живой учебник по методологии отладки. Можно специально ломать тестовую VM и смотреть, как модель ищет баг.

Фрилансер, ведущий несколько клиентских серверов. Агент-ассистент для первичной диагностики при обращениях клиентов. Описал симптом — получил список проверок — прошёлся по ним. Экономит час-два в типичном инциденте.

Как применить сегодня

  • Установить LMStudio и скачать Qwen3.5-9B-MLX-4bit (для 16 ГБ RAM) или Qwen3.5-35B (для 48 ГБ). Запустить локальный сервер.
  • Взять системный промпт из статьи (формат COMMAND/ANSWER с жёсткими правилами одной команды за раз) — он уже отлажен под агентский режим с ручным подтверждением.
  • Указать тестовый сервер (можно локальную VM) и описать симптом в одном предложении: что возвращает сейчас и что должно возвращать.
  • Если планируете длинные сессии на Apple Silicon — установить утилиту управления вентиляторами. Без неё GPU уходит за 90°C и начинается троттлинг.
  • Для продакшн-использования начинать с 35B: разница в качестве и расходе токенов (50к против 300к) оправдывает требование к RAM.
← Все статьи