Coinbase переключился на китайские LLM — GLM 5.2 и Kimi 2.7. Автоматический роутер распределяет запросы по моделям в зависимости от типа задачи и цены. Оптимизация кэширования подняла hit rate с 5% до 60%, а совокупные AI-расходы упали вдвое — несмотря на рост потребления токенов. Об этом рассказал CEO компании Брайан Армстронг.
Контекст
Ценовое давление на западные AI-лаборатории нарастает. Zhipu AI — разработчик серии GLM — вырос из Университета Цинхуа и стал одной из ключевых AI-компаний КНР. Moonshot AI, создатель Kimi, известен акцентом на длинных контекстных окнах и мультимодальных задачах. Обе модели стоят заметно дешевле западных аналогов сопоставимого класса.
Coinbase — не просто крипто-биржа. Это технологическая компания с развитой AI-инфраструктурой: fraud detection, клиентские ассистенты, внутренняя автоматизация. Когда CEO публично называет конкретные модели и механику роутинга — это не локальное инженерное решение. Это сигнал рынку.
Параллельно несколько крупных западных компаний тихо тестируют китайские модели в non-sensitive workloads. Политические риски и вопросы конфиденциальности данных сдерживают массовый переход — но ценовой разрыв слишком очевиден, чтобы его игнорировать.
Аналитика
История Coinbase — наглядный пример того, что AI-расходы теперь управляются как любой другой операционный бюджет: портфель поставщиков, маршрутизация по стоимости, агрессивное кэширование. Лёгкие запросы — FAQ, классификация, шаблонный контент — идут к дешёвой модели; сложная аналитика остаётся у мощной. Это не новая идея, но Coinbase легитимизирует её на уровне CEO-нарратива для корпоративного сектора.
Рост кэш hit rate с 5% до 60% — отдельная история. В большинстве компаний кэширование AI-ответов либо не реализовано вовсе, либо настроено наивно. Показатель 60% означает: примерно три из пяти запросов не уходят провайдеру вообще. Это не просто экономия токенов — это принципиально другая архитектура AI-нагрузки.
Западным лабораториям это давление ощутимо. Если крупные корпоративные клиенты переключают даже часть workloads на более дешёвые азиатские модели, revenue mix меняется существенно. OpenAI, Anthropic, Google DeepMind вынуждены реагировать — либо ценой, либо дифференциацией через уникальные возможности: reasoning, tool use, safety. Ценовая гонка вниз началась.
Кейсы применения в бизнесе
B2B-SaaS стартап (10–50 сотрудников). Внедрить LLM-роутер: дешёвая модель обрабатывает суммаризацию документов, FAQ-ботов, генерацию описаний; дорогая остаётся только для code review и сложной аналитики. Инструменты — LiteLLM или OpenRouter с логикой маршрутизации по типу задачи. Потенциальная экономия при высоком объёме запросов — существенная уже в первые месяцы.
Корпорация с legacy-инфраструктурой. Начать с audit текущих AI-запросов: какие из них типовые и повторяющиеся? Настроить кэш-слой (Redis + semantic similarity) для топ-паттернов. Hit rate 40–60% реален при работе с FAQ и внутренним поиском по документам. Экономия не требует смены модели — просто устранение повторных вызовов.
SMB и локальный бизнес в КР и СНГ. Стоимость западных AI-API болезненна при слабом курсе. Kimi и Qwen через OpenRouter доступны по существенно меньшим тарифам и поддерживают русский язык. Для типичных задач — КП, обработка входящих, перевод — качество достаточное. Тестировать через бесплатные тиеры, мигрировать постепенно.
Кейсы в личной жизни
Разработчик. Настроить личный AI-роутер через LiteLLM: рутинные задачи (docstrings, тесты, рефакторинг) → Kimi или Qwen; сложная архитектура → Claude Sonnet. Большинство задач в коде не требуют топовой модели — можно сократить личные API-расходы кратно.
Контент-мейкер и фрилансер. Первичные черновики, брифы, переформулировки — через более дешёвую модель. Финальная вычитка и нестандартные форматы — через Claude или GPT-4o. Двухуровневый pipeline: массовая генерация + точечная доработка. Стоимость единицы контента падает, качество на выходе не страдает.
Студент и исследователь. Бесплатные тиеры Kimi с большим контекстным окном хорошо справляются с анализом длинных PDF и суммаризацией статей. Для работы с русскоязычными источниками Qwen показывает сильные результаты — не деградирует на кириллице, в отличие от ряда западных моделей.
Как применить сегодня
- Установить LiteLLM и настроить роутинг: лёгкие задачи → Kimi или Qwen, тяжёлые → Claude Sonnet. Это 2–3 часа работы, результат виден на следующем счёте.
- Провести audit AI-расходов: выгрузить логи API-вызовов за последние 30 дней, сгруппировать по типу задачи. Обычно 60–70% запросов — типовые и кэшируемые.
- Внедрить семантический кэш: библиотека GPTCache или Redis + cosine similarity. Повторяющиеся запросы не уходят провайдеру — деньги остаются у вас.
- Протестировать GLM 5.2 и Kimi 2.7 на своих реальных задачах через OpenRouter — не на бенчмарках, а на production-промптах из вашего приложения.
- Следить за кэш hit rate как KPI: цель — 40%+ в первый месяц. Если ниже — запросы слишком разнообразны, нужна более строгая темплейтизация промптов.