Нарратив был такой: inference-расходы падают, AI становится всё доступнее. Реальность — противоположная. GPT 5.5 вышел меньше чем через два месяца после GPT-5.4 и сразу удвоил цены: $5/$30 за миллион токенов input/output против $1.25/$10 у GPT-5 восемь месяцев назад — это рост в три с лишним раза. Gemini 3.5 Flash стоит $1.50/$9.00, тогда как его предшественник Gemini-3-flash-preview обходился в $0.50/$3.00. Anthropic выпустил Opus-4.7 с новым токенайзером, который увеличил потребление токенов на 32–47% относительно Opus-4.6. То есть даже при той же номинальной цене вы платите больше.
Контекст
Frontier-лабы — OpenAI, Anthropic, Google — находятся в гонке за лучшие бенчмарки и одновременно пытаются монетизировать многомиллиардные вложения в compute. Оба давления ведут в одну сторону: вверх по цене. Параллельно идёт «tokenmaxxing» — модели генерируют всё больше токенов на один и тот же запрос, отчасти потому что это улучшает метрики рассуждения, отчасти — потому что выгоднее провайдеру.
На другом полюсе — открытые модели. DeepSeek при честном сравнении по «blend price» (на каждый миллион input-токенов ~50 тысяч output, с учётом кэширования) стоит $0.094 против $2.82 у Anthropic и $2.80 у OpenAI. Это разрыв в 30 раз. DeepSeek сегодня уступает frontier по возможностям, но разрыв закрывается быстро — а стоимость остаётся кратно ниже.
Авторы материала указывают и на ещё один структурный фактор: inference-железо активно масштабируется, локальные провайдеры выходят на рынок, open-source модели выходят каждые несколько недель. Потолок для ценовой экспансии frontier-лаб существует, и он приближается.
Аналитика
Ключевой тезис прост: AI-расходы перестали быть незаметной статьёй бюджета. Когда компания прогоняет агентные пайплайны на тысячах документов или сотнях тысяч запросов в сутки, разница между $0.094 и $2.80 за миллион токенов становится разницей между $10 и $300 в день. При промышленных нагрузках это $3 000–$9 000 в месяц только на inference — против нескольких сотен при использовании DeepSeek или self-hosted Qwen.
Авторы делают важную оговорку: frontier-модели пока объективно мощнее в сложных рассуждениях, долгосрочном планировании, оценке достаточности доказательств (evidential sufficiency assessment). Но для большинства production-кейсов — code review, структурированная генерация, суммаризация, классификация — «достаточно хорошая» модель закрывает задачу не хуже.
Схема «дешёвый инженер + открытая модель» уже конкурентоспособна экономически, особенно для компаний с командами в СНГ, Юго-Восточной Азии, Индии. Это не временный арбитраж — это структурный сдвиг, который ускоряется по мере роста open-source экосистемы.
Кейсы применения в бизнесе
B2B-SaaS стартап с агентным пайплайном. Если вы гоняете тысячи задач через Claude или GPT-4-turbo, попробуйте routing: сложные multi-step reasoning задачи — на frontier, рутинные extraction/classification — на DeepSeek через OpenRouter. Экономия 40–70% inference-бюджета без ощутимой потери качества на bulk-задачах.
Корпорация с legacy-системами. Self-hosted Qwen или LLaMA на корпоративной инфраструктуре — это не только экономия, но и data residency. Для финтеха или медтеха в КР, где данные не могут покидать контур — это единственный compliance-совместимый путь. Стоимость внедрения окупается за 3–6 месяцев при нагрузке от 500К токенов/день.
SMB и локальный бизнес в КР/СНГ. Небольшой e-commerce или сервисная компания не потянет $500–1000/мес на frontier-inference для автоматизации поддержки. Связка: junior-разработчик на аутсорсе ($600–800/мес) + DeepSeek API ($20–50/мес) закрывает большинство задач: FAQ-бот, обработка заявок, генерация описаний товаров. Суммарный бюджет — в 3–5 раз меньше эквивалентного решения на GPT.
Кейсы в личной жизни
Разработчик с агентными инструментами. Если вы используете cursor, claude.ai или кастомный coding-агент — посмотрите на локальные модели для code completion и review рутинных PR. Codestral или DeepSeek-Coder через локальный сервер обойдётся в $0 токенных расходов при сопоставимом качестве на типовых задачах.
Контент-мейкер и фрилансер. Для скриптов, SEO-текстов, суммаризации интервью — 30x разрыв в цене означает, что вы можете прогонять в 30 раз больше материала за тот же бюджет. Используйте OpenRouter с моделью DeepSeek для черновиков, Claude — для финального полиша.
Студент или исследователь. Академические задачи — анализ литературы, структурирование тезисов, перевод — отлично покрываются open-source моделями. Бесплатный tier DeepSeek или Qwen через HuggingFace Inference API позволяет экспериментировать без ограничений бюджета.
Как применить сегодня
- Посчитайте свой «blend cost»: откройте openrouter.ai, сравните текущие цены Claude/GPT vs DeepSeek при вашем реальном соотношении input/output токенов — это займёт 10 минут.
- Внедрите LLM routing: сложные задачи (multi-step, code-gen с высокой ставкой) → frontier; bulk-задачи (classification, extraction, summarization) → DeepSeek или Qwen.
- Если данные чувствительны — поднимите self-hosted Ollama с Qwen2.5 или LLaMA 3.3 на VPS; стоимость сервера ($20–40/мес) быстро отбивается против API-расходов.
- Отслеживайте «tokenmaxxing» в своих пайплайнах: логируйте количество токенов на запрос, добавьте алерт если средний размер контекста вырос на 20%+ — это сигнал к оптимизации промптов.
- При найме AI-разработчика рассматривайте кандидатов из СНГ с опытом работы с open-source стеком — комбинация «хороший инженер + дешёвая модель» по расчётам авторов уже сегодня экономически выгоднее связки «дорогой рынок + frontier API».