Meta разослала внутреннее письмо примерно 6000 сотрудников с простым посылом: потребление токенов вышло из-под контроля. Затраты компании на внутреннее использование ИИ, по данным источников, движутся к миллиардам долларов ежегодно — и это без учёта публичных продуктов. CTO Эндрю Босворт сформулировал проблему прямо: «Движение — это ещё не прогресс, а использование токенов само по себе не является мерой какого-либо влияния». С 2027 года компания переходит на токен-бюджеты, аллокации по командам и централизованный дашборд под названием AI Gateway.
Контекст
Последние два года крупные технологические компании соревновались в том, кто быстрее внедрит LLM во внутренние процессы — от написания кода до суммаризации встреч и анализа данных. Такой подход неформально называли tokenmaxxing: максимизировать использование, предположив, что больше токенов равно больше пользы. Meta не исключение — компания агрессивно строила собственные модели (Llama), разворачивала их внутри и поощряла эксперименты.
Проблема в том, что масштаб потребления при отсутствии контроля растёт экспоненциально. Каждый вызов к LLM стоит денег: инференс, вычислительные кластеры, электричество. Когда сотни команд ежедневно запускают тысячи запросов без привязки к бизнес-результату, счёт быстро идёт на цифры с девятью нулями.
Показательно, что Meta — при всей мощи собственной инфраструктуры и open-source моделях Llama — всё равно столкнулась с проблемой. Это сигнал для всей отрасли: даже вертикально интегрированные игроки не застрахованы от токен-инфляции.
Аналитика
Введение токен-бюджетов — это фактически капитализация ИИ-расходов: компания начинает управлять LLM-потреблением так же, как облачными ресурсами или рекламным инвентарём. AI Gateway как единая точка контроля — аналог AWS Cost Explorer, только для токенов. Это зрелая инфраструктурная реакция: от «дайте всем поиграть» к «докажите ROI перед следующим промптом».
Важнее другое: Meta публично признаёт, что метрика «количество токенов» не отражает ценность. Это ломает нарратив о том, что рост AI-активности сам по себе означает трансформацию бизнеса. Для рынка это сдвиг от adoption metrics к outcome metrics — теперь ИИ-команды будут отвечать не за то, сколько они потребили, а за то, что из этого получилось.
Тренд будет воспроизведён во всех крупных компаниях. Корпорации, которые в 2024–2025 годах раздавали доступ к LLM без ограничений, в 2026–2027 годах будут вводить внутренние биллинг-системы, чарджбэки по командам и обязательные KPI к AI-инициативам. Стартапы, строящие FinOps-инструменты для LLM, получат попутный ветер.
Кейсы применения в бизнесе
B2B-SaaS стартап с AI-фичами: если ваш продукт делает LLM-вызовы от имени пользователей, введите внутренний дашборд потребления по фиче/клиенту уже сейчас. Иначе при масштабе вы обнаружите, что одна «умная» фича съедает 60% бюджета инференса. Инструменты уровня LangSmith, Helicone или собственный лог в PostgreSQL — минимальный старт. Цель: видеть стоимость каждого юзер-флоу.
Корпорация с pilot-программами ИИ: если у вас уже развёрнуты внутренние LLM-инструменты (Copilot, внутренние чат-боты, автогенерация документов) — самое время провести аудит. Какие команды используют, сколько запросов в неделю, какой процент использования реально влияет на бизнес-метрики? Ответы на эти вопросы до введения бюджетов позволят договориться об аллокациях с позиции данных, а не давления.
SMB и локальный бизнес в КР/СНГ: при работе с OpenAI API или облачными LLM-сервисами контроль затрат критичен уже на старте. Настройте alert на превышение дневного бюджета через API-провайдера, кэшируйте повторяющиеся запросы, используйте более лёгкие модели для рутинных задач (классификация, экстракция) и оставляйте мощные модели для сложных сценариев. Это не экономия ради экономии — это привычка, которая спасёт юнит-экономику при росте.
Кейсы в личной жизни
Разработчик: если вы используете AI-ассистентов в IDE или пишете скрипты с LLM-вызовами — отслеживайте реальное потребление. Многие не замечают, как background-агенты или длинный контекст «съедают» лимиты. Попробуйте одну неделю вести лог: какие задачи реально решил ИИ, какие можно было решить без него. Результат обычно удивляет.
Контент-мейкер и фрилансер: AutoGPT-агенты и массовая генерация текстов создают иллюзию продуктивности. Отслеживайте не количество сгенерированных единиц, а процент, который дошёл до публикации/клиента. Если воронка конверсии низкая — пересмотрите промпт-стратегию, а не наращивайте объём.
Студент или исследователь: бесплатные тарифы LLM-сервисов имеют дневные лимиты. Научитесь структурировать задачи так, чтобы один хорошо составленный запрос давал максимум пользы, вместо десяти итеративных. Это навык работы с контекстом и промптингом, который окупается не только финансово.
Как применить сегодня
- Если вы используете LLM через API — подключите мониторинг токенов: большинство провайдеров дают встроенную аналитику или поддерживают Helicone/LangSmith как прокси-логгер.
- Разделите LLM-нагрузку по моделям: тяжёлые задачи (аналитика, генерация кода, рассуждения) — мощная модель, рутина (классификация, извлечение, саммари) — лёгкая и дешёвая.
- Введите внутреннее правило: каждый AI-инструмент в команде должен иметь измеримый KPI — экономия времени, рост конверсии, снижение ошибок. Без метрики — нет бюджета.
- Кэшируйте повторяющиеся запросы: если один и тот же промпт с одними данными вызывается десятки раз в день — это прямые потери. Семантический кэш или простой хэш-кэш решает проблему.
- Запланируйте ревью AI-расходов раз в месяц: не как техническую задачу, а как финансовую. Какие фичи/агенты/команды потребляют больше всего, и оправдано ли это результатом?
«Всё движение — ещё не прогресс, а использование токенов само по себе не является мерой какого-либо влияния» — Эндрю Босворт, CTO Meta