На двух MacBook Pro — M2 с 16 ГБ и M4 с 48 ГБ — запустили локальные модели Qwen3.5-9B и Qwen3.5-35B через LMStudio. Агент получал доступ к Ubuntu-серверу через SSH и должен был найти и исправить намеренно внесённые баги в Python/FastAPI-сервисе: опечатку в коде, потерянный импорт и отсутствующий пакет в virtualenv. Результаты — измеримые и местами неожиданные.
Контекст
Идея локального agentic-дебаггера не нова, но до недавнего времени упиралась в два ограничения: слабые локальные модели и отсутствие нормального инструментария. LMStudio с MLX-рантаймом изменил второе — запускать квантизованные модели на Apple Silicon стало относительно просто. Qwen3.5 от Alibaba Cloud — одна из немногих open-source серий, где разрыв между 9B и 35B параметрами ощутим именно на практических задачах, а не только на бенчмарках.
Архитектура эксперимента проста: Swift-приложение в духе Spotlight принимает запрос пользователя, передаёт его в LLM, модель предлагает команду для выполнения на сервере, пользователь подтверждает, результат возвращается в контекст. Никакого облака. Никаких внешних API. Весь inference — на ноутбуке.
Задача выбрана осознанно реалистичной: сервис вернул HTTP 500, раньше работал. Три взаимосвязанных бага, которые нужно найти последовательно — классический сценарий ночного дежурства.
Аналитика
Модель 9B на MB16 решала задачу лишь в 50–60% сессий и в среднем тратила около 300 000 токенов на одну попытку — с зацикливаниями на отдельных командах. На MB48 качество то же, но скорость выше: больше оперативки позволяет держать модель целиком без свопинга. Это важно: железо влияет не на интеллект модели, а на её «выносливость» в длинных цепочках.
Модель 35B — другая история. 95% успешных сессий, в среднем в три раза меньше итераций, ~50 000 токенов против 300 000 у 9B. Зацикливаний нет. Разница не в том, что 35B «умнее» в академическом смысле — она точнее формулирует следующий шаг, меньше «блуждает» и реже повторяет уже проверенные гипотезы. Для agentic-задач, где каждый лишний цикл — это время ожидания и нагрев железа, это критично.
Отдельная находка — тепловой режим. Без управления кулерами GPU ноутбука уходил в 90–100°C во время inference. С TG Pro (утилита управления вентиляторами) температура держалась ниже 70°C. Для продолжительных агентских сессий это не опция, а необходимость — иначе троттлинг и деградация производительности.
Кейсы применения в бизнесе
B2B-SaaS стартап с небольшой DevOps-командой. Агент на локальной модели может стать первой линией диагностики при инцидентах: разработчик описывает симптом, агент последовательно проверяет логи, конфиги, состояние процессов. Даже 9B-модель снимает часть когнитивной нагрузки в 2 часа ночи. Результат: время до первого осмысленного шага сокращается, особенно для junior-инженеров.
Корпорация с legacy-инфраструктурой и ограничениями на передачу данных. Локальный агент — единственный безопасный вариант там, где политика безопасности запрещает отправлять логи и конфиги в облачные API. Модель работает на изолированной машине в контуре компании. Qwen3.5-35B помещается в 48 ГБ unified memory — это уже реалистичное железо для рабочей станции.
SMB и локальный бизнес в КР/СНГ. Небольшая компания с одним разработчиком и несколькими серверами может использовать схожую архитектуру для мониторинга и быстрой диагностики без платных облачных AI-сервисов. Стоимость — ноутбук с достаточным объёмом RAM и бесплатный LMStudio. Это реальная альтернатива дорогим managed-решениям.
Кейсы в личной жизни
Разработчик с домашним сервером или Raspberry Pi. Агент через SSH разберётся с упавшим докер-контейнером или сломанным nginx — не нужно самому вспоминать все флаги journalctl в воскресенье утром. Попробовать: LMStudio + любая Qwen3.5-9B-MLX, задать системный промпт из статьи и описать симптом.
Студент или джуниор, изучающий DevOps. Наблюдать за тем, как агент последовательно строит гипотезы и проверяет их командами — живой учебник по методологии отладки. Можно специально ломать тестовую VM и смотреть, как модель ищет баг.
Фрилансер, ведущий несколько клиентских серверов. Агент-ассистент для первичной диагностики при обращениях клиентов. Описал симптом — получил список проверок — прошёлся по ним. Экономит час-два в типичном инциденте.
Как применить сегодня
- Установить LMStudio и скачать Qwen3.5-9B-MLX-4bit (для 16 ГБ RAM) или Qwen3.5-35B (для 48 ГБ). Запустить локальный сервер.
- Взять системный промпт из статьи (формат COMMAND/ANSWER с жёсткими правилами одной команды за раз) — он уже отлажен под агентский режим с ручным подтверждением.
- Указать тестовый сервер (можно локальную VM) и описать симптом в одном предложении: что возвращает сейчас и что должно возвращать.
- Если планируете длинные сессии на Apple Silicon — установить утилиту управления вентиляторами. Без неё GPU уходит за 90°C и начинается троттлинг.
- Для продакшн-использования начинать с 35B: разница в качестве и расходе токенов (50к против 300к) оправдывает требование к RAM.