2026-06-13 20:01 · 🤖 AI World

Сатья Наделла признался: я тоже докидываю токены — и это затягивает

CEO Microsoft публично предупреждает против «token-maxing» — привычки гнать любую задачу через самые мощные и дорогие модели. И тут же признаётся: сам грешит тем же.

Сатья Наделла на публике сказал вслух то, о чём большинство AI-пользователей молчат: он тоже «token-maxer». Предупреждает, что фронтирные модели не стоит тратить на рутинные задачи — маржинальная стоимость прироста продуктивности должна соответствовать стоимости токенов. И тут же добавляет: «Я сам как token-maxer. Это затягивает». Честнее некуда.

Контекст

«Token-maxing» — разговорный термин для паттерна, когда человек (или компания) по умолчанию подаёт любой запрос в самую тяжёлую доступную модель: GPT-4o, Claude Opus, Gemini Ultra и их аналоги. Логика понятна: зачем рисковать качеством, если мощная модель справится точнее? Но это иллюзия. Написать email, суммаризировать короткий текст, сгенерировать SQL из шаблона — всё это Haiku или Sonnet делают не хуже Opus, зато в 5–25 раз дешевле по токенам.

Наделла — не первый, кто об этом говорит. Anthropic, OpenAI и Google давно продвигают идею «правильного роутинга»: выбирать модель под задачу, а не брать максимальную на всё. Но одно дело — позиция вендора (у него мотив продавать дешёвые модели тоже). Другое — когда CEO крупнейшего в мире корпоративного покупателя AI-инфраструктуры говорит это про себя лично.

Microsoft вложил десятки миллиардов в OpenAI и строит на этом весь стек Copilot. Наделла лучше кого бы то ни было понимает, сколько стоит один инферанс на фронтирной модели в масштабе — и всё равно признаётся, что не может удержаться.

Аналитика

Признание Наделлы — это не просто самоирония. Это сигнал о системной проблеме AI-adoption: когнитивная экономия перевешивает финансовую. Выбрать «правильную» модель требует усилий — нужно знать бенчмарки, понимать задачу, доверять меньшей модели. Проще не думать и взять лучшее. Так ведут себя не только разработчики-энтузиасты, но и корпоративные команды, которые закладывают AI-бюджеты.

Для рынка это важный момент: если даже CEO Microsoft «подсел» на токены, то контроль AI-расходов становится отдельной управленческой компетенцией. Не IT-задачей, не DevOps-задачей — именно менеджерской. Компании, которые не выстраивают model routing и политику использования моделей, будут сжигать бюджет быстрее, чем получат ROI.

Параллельно это подтверждает тренд на специализацию: рынок движется не к одной универсальной модели, а к экосистеме — тяжёлые модели для стратегических и творческих задач, лёгкие — для массовых операций. Agentic-системы нового поколения уже умеют маршрутизировать задачи автоматически. Но пока большинство команд этого не делают.

Кейсы применения в бизнесе

B2B-SaaS стартап: Если у вас API-интеграция с Claude или GPT — добавьте явный роутинг в промпт-менеджер. Классификация входящего запроса (простой / сложный / креативный) и выбор модели под него снижают стоимость инфраструктуры на 40–70% без потери качества для пользователя. Результат — больше margin при том же объёме запросов.

Корпорация с legacy: Централизованный AI-шлюз (gateway) с политиками роутинга — не просто cost control, это governance. Какие отделы используют какие модели, на какие задачи, с каким контекстом. Данные для аудита, compliance, оптимизации. Сценарий особенно актуален для банков и телекома в КР и СНГ, где AI-инструменты внедряются неравномерно и бесконтрольно.

SMB / локальный бизнес: Если вы платите за Claude Pro или ChatGPT Teams — скорее всего, 80% ваших запросов не требуют топ-модели. Попробуйте намеренно переключиться на Haiku или GPT-4o mini для черновой работы: суммаризация, переформулировка, простые вопросы по документу. Сравните качество. В большинстве случаев разница незаметна.

Кейсы в личной жизни

Разработчик: Для автодополнения и мелких рефакторингов в IDE используйте лёгкую модель (Haiku, Sonnet mini). Тяжёлую — для архитектурных решений, сложного дебаггинга, написания тестов с нуля. Это не только дешевле, но и быстрее: меньше latency на частых операциях.

Контент-мейкер: Первый черновик, заголовки, перефразировки — задачи для лёгкой модели. Финальная редактура с учётом тона бренда, генерация нестандартных углов, работа с длинным контекстом — вот где оправдан Opus или GPT-4o. Разделите рабочий процесс на этапы и назначьте каждому свою модель.

Студент / фрилансер: Если вы на бесплатном плане и хотите выжать максимум из лимитов — осознанно берегите «тяжёлые» сессии для реально сложных задач. Объяснение лекции, пересказ статьи, проверка грамматики — это не повод тратить дневной лимит на топ-модель.

Как применить сегодня

Составьте простую матрицу: задача → тип сложности → модель. Три строки в Notion или таблице хватит для начала.
Если используете API — добавьте в систему промпт классификатор: пусть лёгкая модель сама решает, нужна ли тяжёлая для следующего шага.
Для команды: установите политику «по умолчанию — Sonnet/Haiku, Opus — только с обоснованием». Не запрет, а friction, который заставляет думать.
Раз в месяц смотрите на статистику токенов по задачам. Если 90% затрат — простые запросы на дорогой модели, это деньги на ветер.
Попробуйте один день намеренно работать только с лёгкой моделью. Зафиксируйте, где реально не хватило — это и есть ваш реальный профиль использования.

«Я сам как token-maxer. Это затягивает» — Сатья Наделла, CEO Microsoft

#token-maxing #Microsoft #AI-расходы #model routing #LLM

← Все статьи