← Все статьи
2026-06-17 00:01 · 🤖 AI World

Создатель llama.cpp каждый день работает с Qwen3-27B локально

Georgi Gerganov — автор llama.cpp и ggml — полтора месяца ежедневно использует Qwen3-27B как рабочий инструмент для кода. Не в качестве теста, а в реальном рабочем процессе.

Создатель llama.cpp каждый день работает с Qwen3-27B локально

16 июня 2026 года в треде на Hacker News, посвящённом статье «Running local models is good now», появился комментарий, который сложно проигнорировать. Georgi Gerganov — создатель llama.cpp и библиотеки ggml, то есть человек, который буквально построил инфраструктуру для запуска открытых моделей на потребительском железе, — написал, что Qwen3-27B стал его ежедневным рабочим инструментом. Не эксперимент, не бенчмарк — повседневная работа по поддержке ggml-org.

Контекст

Georgi Gerganov — один из самых влиятельных инженеров в экосистеме open-source AI. llama.cpp сделал локальный инференс массовым явлением: именно этот проект позволил запускать большие языковые модели на MacBook и игровых PC без облачных зависимостей. Организация ggml-org на GitHub объединяет несколько смежных проектов — библиотеку тензорных вычислений, квантизацию, рантайм.

Qwen3 — третье поколение открытых моделей от Alibaba. Серия включает модели разного размера; 27-миллиардный вариант попадает в зону «помещается в VRAM одной хорошей карты или в унифицированную память Apple Silicon». Для M2 Ultra с его объёмом памяти это комфортный диапазон.

Сам Gerganov пишет, что гоняет модель либо на M2 Ultra, либо на машине с RTX 5090. Оба варианта — топовое железо для локального инференса, но примечательно другое: человек, который знает об инференсе всё, выбрал именно Qwen3-27B, а не любую из десятков альтернатив.

Аналитика

Когда практикующий инженер такого уровня говорит «я использую это каждый день», это сигнал качественно иного порядка, чем любой публичный бенчмарк. Gerganov буквально написал движок, на котором работает вся эта экосистема — у него нет мотивации рекламировать что-то ради пиара. Он говорит о конкретных задачах: мелкая рутина мейнтейнера, review-помощь, небольшие утилитарные вещи. Именно этот сегмент — «полезный ассистент для ежедневной рутины» — долго оставался слабым местом локальных моделей по сравнению с облачными.

Интересно устройство его рабочего процесса: pi agent в режиме pi -nc --offline — максимально stripped-down обёртка без лишних зависимостей, плюс короткий system prompt «под себя». Это антипаттерн к модному agentic-максимализму: минимум оркестрации, максимум сигнала от модели. Работает.

На более широком уровне это подтверждает тренд: граница между «локальным» и «облачным» по качеству вывода для задач кода смещается. Qwen3-27B — не замена GPT-4o или Claude для сложного рассуждения, но для повседневной рутины разработчика разрыв закрывается. А полная офлайн-работа — это не только приватность, но и отсутствие latency, токенных затрат, зависимости от апстрима.

Кейсы применения в бизнесе

B2B-SaaS стартап с командой разработчиков. Развернуть Qwen3-27B на локальных машинах dev-команды через llama.cpp или Ollama. Использовать для code review assistance, генерации boilerplate, написания тестов. Результат: снижение расходов на токены при сохранении качества для рутинных задач. Чувствительный код не покидает периметр.

Корпорация с требованиями по безопасности данных. Для enterprise с ограничениями на передачу данных во внешние API (банки, госсектор, медицина) локальная модель — не компромисс, а единственный легитимный вариант. Qwen3-27B на сервере внутри периметра закрывает сценарии code assistance и документации без согласований с compliance.

IT-агентство или фрилансер в КР/СНГ. Без подписки на Claude Pro или GPT Plus, с нестабильным интернетом — локальная модель даёт стабильный инструмент за разовую стоимость железа. Ollama + Qwen3-27B запускается на современном игровом PC. Для задач клиентской разработки, генерации кода, написания документации — рабочий вариант уже сейчас.

Кейсы в личной жизни

Разработчик-мейнтейнер open-source проекта (собственно, кейс Gerganov): использовать Qwen3-27B в stripped-down агентном режиме для разбора PR, быстрых правок, генерации changelog. Не нужно подключение к интернету во время работы — модель отвечает мгновенно.

Студент или self-taught разработчик с ограниченным бюджетом: вместо платной подписки — Ollama + Qwen3-27B на имеющемся железе. Для учёбы, разбора чужого кода, написания домашних проектов модель этого класса покрывает большинство нужд. Нет лимитов по токенам, нет очереди.

Контент-мейкер или копирайтер, работающий с кодом: автоматизация рутины — скрипты для обработки текста, парсинг, работа с файлами. Qwen3-27B хорошо справляется с Python-скриптами для нетехнического пользователя, которому нужен «помощник для одной задачи» без подписки.

Как применить сегодня

  • Установить Ollama и запустить: ollama run qwen3:27b — модель доступна в реестре Ollama. Для M-серии Mac или PC с 24+ ГБ VRAM работает без дополнительных настроек.
  • Попробовать минималистичный подход Gerganov: короткий system prompt («ты помогаешь мне с задачами на Python, отвечай кратко, без объяснений если не прошу»), без сложной оркестрации.
  • Для офлайн-режима использовать флаг --offline если ваш клиент поддерживает, или просто отключить интернет — llama.cpp и Ollama работают полностью локально.
  • Сравнить качество на своих конкретных задачах с облачной альтернативой: для code review и рутинного кода разрыв может оказаться меньше, чем ожидается.
  • Если нужна агентная обёртка — смотреть в сторону минималистичных решений (Continue.dev для VS Code, llm CLI от Simon Willison) вместо тяжёлых фреймворков.
«Я бы использовал её гораздо больше, если бы не приходилось тратить много времени на review PR» — Georgi Gerganov о Qwen3-27B
← Все статьи