Большинство людей, которые работают с GPT, Claude или Llama, воспринимают их как «умный чат». Но за этим интерфейсом — конкретная математика: матричное умножение, статистика на триллионах параметров и жёсткие ограничения на то, сколько информации модель вообще способна удержать за один вызов. Понять это — значит перестать удивляться, почему агент «забывает» начало разговора, почему русский промпт дороже английского и зачем вообще нужны Skills у Claude.
Контекст
Все популярные модели — GPT, Claude, Llama, Gemini — это авторегрессивные трансформеры. Суть простая: модель получает набор токенов, генерирует один следующий, добавляет его к входу и повторяет. Никакой магии — только статистика в масштабе, который человеческий мозг не может представить. Буква T в GPT расшифровывается как Transformer, и именно эта архитектура лежит в основе всего поколения.
Токен — базовая единица, с которой работает модель. Не буква и не слово, а что-то среднее: частотный фрагмент текста, закодированный числом из словаря конкретной модели. Словари разных вендоров несовместимы — веса от одной модели буквально не подходят к другой, потому что они обучены на разных «алфавитах». GPT-4o работает со словарём из ~200 тысяч токенов, LLaMA 3 — из 128 тысяч, GPT-3.5/4 — из 100 тысяч, LLaMA 2 — из 32 тысяч. Размер Anthropic официально не раскрывает; по данным реверс-инжиниринга на эпоху Claude 2/3 словарь составлял около 65 тысяч токенов, актуальные цифры для Claude 4.x известны только внутри компании.
Важная деталь для всех, кто платит за API или строит продукт на managed-моделях: исходящий токен стоит в 5–10 раз дороже входящего. Это не произвольное решение, а отражение реальной вычислительной стоимости — каждый выходной токен требует полного прохода по всей архитектуре.
Аналитика
Почему русский текст расходует в 2–3 раза больше токенов, чем английский? Токенизаторы исторически затачивались под английский язык с его простой морфологией. Кириллица и её сложная словообразовательная система разбивается на более мелкие фрагменты — одно русское слово может занять 3–5 токенов там, где английский аналог займёт один. Для бизнеса это прямые деньги: одинаковый по смыслу промпт на русском обходится дороже. Для агентных систем с длинным контекстом разница ещё заметнее.
Три основных алгоритма токенизации — BPE (Byte Pair Encoding, используется в GPT и LLaMA), WordPiece (BERT и производные) и SentencePiece (мультиязычные модели) — отвечают на один вопрос: как упаковать максимум смысла в минимум токенов. BPE — чисто частотный: ищет самые распространённые пары символов и объединяет их. WordPiece добавляет языковую вероятность. SentencePiece работает с сырым текстом без разбивки по пробелам, что делает его эффективным для китайского, японского и языков с богатой морфологией.
Рост размеров словарей — от 32–50 тысяч токенов в ранних моделях до 128–200 тысяч в современных — это не просто апгрейд. Большой словарь = меньше токенов на ту же мысль = эффективнее используется контекстное окно = дешевле инференс при той же глубине разговора. Именно поэтому битва за контекст идёт сразу на нескольких фронтах: и в архитектуре трансформера, и в токенизаторе, и в том, как именно строится промпт.
Кейсы применения в бизнесе
B2B-SaaS стартап с LLM-ядром: если ваш продукт генерирует ответы для русскоязычных пользователей, оптимизируйте системные промпты на английском — переключите на английский всё, что не требует локализации (инструкции, роли, структура вывода). Пользовательский ввод на русском не избежать, но управляющая часть промпта на английском сократит расход токенов на 30–50% от этой части. При тысячах запросов в день это ощутимая экономия.
Корпорация с legacy-данными: при построении RAG-пайплайна токенизация влияет на то, как чанкуются документы. Если чанки слишком мелкие — теряется контекст, слишком крупные — вылезают за лимит. Стоит тестировать размер чанков с учётом реального токен-веса вашего языка и домена: технический русскоязычный текст токенизируется иначе, чем художественная проза.
SMB / локальный бизнес в КР и СНГ: если используете Claude или GPT через API для автоответов или обработки заявок — считайте токены заранее. Интеграция с тикетной системой или CRM может незаметно съедать бюджет из-за длинных системных промптов на русском. Вариант — держать шаблоны на английском, русский текст подставлять только там, где это критично для смысла.
Кейсы в личной жизни
Разработчик: при работе с Claude Code или GPT в IDE помните, что большие файлы кода в контексте — это дорого и медленно. Чем точнее вы формулируете запрос и чем меньше лишнего кода даёте на вход, тем эффективнее работает модель. Передавайте только релевантный фрагмент, а не весь файл целиком.
Контент-мейкер: если генерируете тексты для русскоязычной аудитории, попробуйте писать промпт на английском с инструкцией «ответ на русском». Это уменьшит стоимость входящего токена, а качество вывода при хорошем промпте не пострадает.
Студент / исследователь: статья — отличный старт для понимания того, почему модели «теряют» информацию в длинных диалогах. Следующий шаг — разобраться с attention mechanism и контекстным окном: это объяснит, почему увеличение окна до 200k токенов не решает проблему «забывания» начала разговора полностью.
Как применить сегодня
- Проверьте, на каком языке написаны ваши системные промпты — перевод управляющей части на английский даёт прямую экономию токенов при русскоязычных продуктах.
- Используйте токенизаторы онлайн (для OpenAI — tiktoken, для других моделей есть аналоги на HuggingFace) чтобы измерить реальный вес ваших промптов до интеграции.
- При построении агентных пайплайнов считайте токены как первоклассную метрику: добавьте логирование token usage в каждый вызов API — это покажет, где бюджет уходит впустую.
- Если работаете с RAG — экспериментируйте с размером чанков: оптимальный чанк для русского текста по токенам будет меньше, чем кажется при подсчёте по символам.
- Следите за следующими частями цикла: автор обещает разобрать Agent Skills от Anthropic и их роль в оптимизации контекста — это напрямую связано с тем, как строить эффективные мульти-агентные системы.