2026-06-28 22:02 · 🤖 AI World

Coinbase режет бюджет на AI вдвое: китайские модели и умный роутинг

CEO Coinbase Брайан Армстронг перевёл компанию на GLM 5.2 и Kimi 2.7. Автоматический роутер + агрессивный кэш подняли hit rate с 5% до 60% и сократили расходы на AI вдвое — при этом объём токенов продолжает расти.

Coinbase переключился на китайские LLM — GLM 5.2 и Kimi 2.7. Автоматический роутер распределяет запросы по моделям в зависимости от типа задачи и цены. Оптимизация кэширования подняла hit rate с 5% до 60%, а совокупные AI-расходы упали вдвое — несмотря на рост потребления токенов. Об этом рассказал CEO компании Брайан Армстронг.

Контекст

Ценовое давление на западные AI-лаборатории нарастает. Zhipu AI — разработчик серии GLM — вырос из Университета Цинхуа и стал одной из ключевых AI-компаний КНР. Moonshot AI, создатель Kimi, известен акцентом на длинных контекстных окнах и мультимодальных задачах. Обе модели стоят заметно дешевле западных аналогов сопоставимого класса.

Coinbase — не просто крипто-биржа. Это технологическая компания с развитой AI-инфраструктурой: fraud detection, клиентские ассистенты, внутренняя автоматизация. Когда CEO публично называет конкретные модели и механику роутинга — это не локальное инженерное решение. Это сигнал рынку.

Параллельно несколько крупных западных компаний тихо тестируют китайские модели в non-sensitive workloads. Политические риски и вопросы конфиденциальности данных сдерживают массовый переход — но ценовой разрыв слишком очевиден, чтобы его игнорировать.

Аналитика

История Coinbase — наглядный пример того, что AI-расходы теперь управляются как любой другой операционный бюджет: портфель поставщиков, маршрутизация по стоимости, агрессивное кэширование. Лёгкие запросы — FAQ, классификация, шаблонный контент — идут к дешёвой модели; сложная аналитика остаётся у мощной. Это не новая идея, но Coinbase легитимизирует её на уровне CEO-нарратива для корпоративного сектора.

Рост кэш hit rate с 5% до 60% — отдельная история. В большинстве компаний кэширование AI-ответов либо не реализовано вовсе, либо настроено наивно. Показатель 60% означает: примерно три из пяти запросов не уходят провайдеру вообще. Это не просто экономия токенов — это принципиально другая архитектура AI-нагрузки.

Западным лабораториям это давление ощутимо. Если крупные корпоративные клиенты переключают даже часть workloads на более дешёвые азиатские модели, revenue mix меняется существенно. OpenAI, Anthropic, Google DeepMind вынуждены реагировать — либо ценой, либо дифференциацией через уникальные возможности: reasoning, tool use, safety. Ценовая гонка вниз началась.

Кейсы применения в бизнесе

B2B-SaaS стартап (10–50 сотрудников). Внедрить LLM-роутер: дешёвая модель обрабатывает суммаризацию документов, FAQ-ботов, генерацию описаний; дорогая остаётся только для code review и сложной аналитики. Инструменты — LiteLLM или OpenRouter с логикой маршрутизации по типу задачи. Потенциальная экономия при высоком объёме запросов — существенная уже в первые месяцы.

Корпорация с legacy-инфраструктурой. Начать с audit текущих AI-запросов: какие из них типовые и повторяющиеся? Настроить кэш-слой (Redis + semantic similarity) для топ-паттернов. Hit rate 40–60% реален при работе с FAQ и внутренним поиском по документам. Экономия не требует смены модели — просто устранение повторных вызовов.

SMB и локальный бизнес в КР и СНГ. Стоимость западных AI-API болезненна при слабом курсе. Kimi и Qwen через OpenRouter доступны по существенно меньшим тарифам и поддерживают русский язык. Для типичных задач — КП, обработка входящих, перевод — качество достаточное. Тестировать через бесплатные тиеры, мигрировать постепенно.

Кейсы в личной жизни

Разработчик. Настроить личный AI-роутер через LiteLLM: рутинные задачи (docstrings, тесты, рефакторинг) → Kimi или Qwen; сложная архитектура → Claude Sonnet. Большинство задач в коде не требуют топовой модели — можно сократить личные API-расходы кратно.

Контент-мейкер и фрилансер. Первичные черновики, брифы, переформулировки — через более дешёвую модель. Финальная вычитка и нестандартные форматы — через Claude или GPT-4o. Двухуровневый pipeline: массовая генерация + точечная доработка. Стоимость единицы контента падает, качество на выходе не страдает.

Студент и исследователь. Бесплатные тиеры Kimi с большим контекстным окном хорошо справляются с анализом длинных PDF и суммаризацией статей. Для работы с русскоязычными источниками Qwen показывает сильные результаты — не деградирует на кириллице, в отличие от ряда западных моделей.

Как применить сегодня

Установить LiteLLM и настроить роутинг: лёгкие задачи → Kimi или Qwen, тяжёлые → Claude Sonnet. Это 2–3 часа работы, результат виден на следующем счёте.
Провести audit AI-расходов: выгрузить логи API-вызовов за последние 30 дней, сгруппировать по типу задачи. Обычно 60–70% запросов — типовые и кэшируемые.
Внедрить семантический кэш: библиотека GPTCache или Redis + cosine similarity. Повторяющиеся запросы не уходят провайдеру — деньги остаются у вас.
Протестировать GLM 5.2 и Kimi 2.7 на своих реальных задачах через OpenRouter — не на бенчмарках, а на production-промптах из вашего приложения.
Следить за кэш hit rate как KPI: цель — 40%+ в первый месяц. Если ниже — запросы слишком разнообразны, нужна более строгая темплейтизация промптов.

#model routing #китайский AI #LLM стоимость #Coinbase #оптимизация

← Все статьи