Google обновила Gemini Flash до версии 3.5, и модель действительно стала сильнее. Но за это приходится платить буквально: по данным бенчмарков, стоимость запуска выросла в 5,5 раза по сравнению с предшественником. На агентных задачах ситуация ещё острее — расходы там превышают даже более дорогой Gemini 3.1 Pro на 75%, потому что модель тратит больше шагов взаимодействия, чем любой протестированный конкурент.
Контекст
Flash-линейка от Google — это «бюджетные» модели с высоким соотношением скорость/качество. Они позиционируются для массового использования: именно сюда направляется основной объём запросов в продакшн-системах. Gemini 2.0 Flash и 2.5 Flash были заметно дешевле Pro-моделей, что делало их де-факто стандартом для агентных пайплайнов и high-volume API-интеграций.
Теперь этот ценовой зазор стремительно сужается. Gemini 3.5 Flash дороже предыдущего Flash-поколения примерно в пять раз — и это официальная «экономичная» опция. Для сравнения: ещё год назад Flash-класс воспринимался как способ держать инференс-расходы под контролем.
Google здесь не одинока. Anthropic и OpenAI также подняли цены на новые версии моделей. Отрасль в целом движется к монетизации огромных капиталовложений в GPU, датацентры и R&D — и стоимость инференса становится одним из главных рычагов.
Аналитика
За ростом цен стоит структурная логика: модели нового поколения работают иначе. Они рассуждают дольше, совершают больше шагов до ответа, потребляют больше токенов на один запрос. Это не баг — это фича extended thinking и agent loops. Но экономику пайплайнов это переворачивает: если раньше Flash был «дешёвым воркером», теперь его использование в многошаговых агентных цепочках может обходиться дороже, чем Pro-модель при прямом вызове.
Разрыв между «умнее» и «дешевле» закрывается. Отрасль явно движется к тому, что более интеллектуальные модели стоят пропорционально больше — и инвесторы этого требуют. Все три крупных провайдера одновременно поднимают ценники, что сигнализирует: фаза «демпинга ради захвата рынка» заканчивается.
Для тех, кто строит AI-продукты на API, это означает пересмотр unit-экономики. Дешёвый инференс, на который рассчитывались стартапы в 2024–2025 году, перестаёт быть данностью. Выигрывают те, кто умеет контролировать токен-расход: кеширование промптов, умная маршрутизация между моделями, сжатие контекста.
Кейсы применения в бизнесе
B2B-SaaS стартап с AI-фичами. Если у вас агентный пайплайн — пересмотрите архитектуру уже сейчас. Не «один большой агент на Flash», а каскадная маршрутизация: лёгкие задачи (классификация, короткий ответ) — на Haiku или старый Flash, сложные рассуждения — только туда, где без нового поколения не обойтись. Экономия на токенах без потери качества реальна.
Корпорация с legacy-процессами. При расчёте ROI от внедрения AI-автоматизации закладывайте в модель роста расходов не линейный рост, а экспоненциальный — каждый новый релиз модели будет дороже. Это меняет payback period. Фиксируйте контракты с провайдерами на ценовые условия, где возможно, или строите vendor-agnostic слой абстракции.
SMB и локальный бизнес в КР/СНГ. Для небольших объёмов рост цен пока не критичен, но важно не закладываться на текущий прайс как на постоянный. Если бизнес использует AI через посредника (агентство, SaaS-платформу) — уточните, как провайдер транслирует изменения в вашу стоимость. Хорошая стратегия: начать с открытых моделей на собственном хостинге (Qwen, Mistral) для рутинных задач.
Кейсы в личной жизни
Разработчик, строящий side-project на API. Пересчитайте ежемесячный бюджет под новые цены — и активируйте prompt caching везде, где контекст повторяется. Для Claude это штатная функция SDK, для Gemini — аналогичный механизм контекстного кеша. Разница в расходах может быть кратной.
Контент-мейкер, использующий AI в работе. Если вы платите за AI-подписку (Claude Pro, Gemini Advanced) — ценовой рост вас не касается напрямую. Но если работаете через API или интеграции — стоит мониторить изменения в прайсах используемых инструментов, особенно если они завязаны на агентных задачах с длинным контекстом.
Студент или фрилансер, изучающий AI. Сейчас отличный момент разобраться с открытыми моделями. Qwen 2.5, DeepSeek, Mistral через Ollama или HuggingFace — бесплатно, локально, без зависимости от прайс-листов Big Tech. Навык работы с open-source LLM становится всё более ценным именно сейчас.
Как применить сегодня
- Аудит токен-расходов: если используете AI API — выгрузите статистику за последний месяц и найдите топ-3 самых дорогих пайплайна.
- Включите prompt caching там, где системный промпт или контекст повторяется — для Claude это параметр
cache_control, для Gemini — implicit caching или explicit context caching. - Протестируйте каскадную маршрутизацию: простые запросы → дешёвая модель, сложные → дорогая. Инструменты: LiteLLM, собственный роутер.
- Для агентных задач — замерьте среднее количество шагов на задачу. Если больше 5-7, архитектура агента скорее всего избыточна и поддаётся оптимизации.
- Следите за открытыми альтернативами: Qwen 3, DeepSeek V3 и новые Mistral-модели закрывают большинство задач за ноль долларов при локальном деплое.