DeepSeek одновременно выпустили две модели — V4-Pro и V4-Flash. Обе построены на архитектуре Mixture-of-Experts, обе поддерживают контекстное окно в один миллион токенов, и обе открыты: веса доступны на HuggingFace под MIT-лицензией. V4-Pro выходит на уровень Claude Opus 4.6 в агентном кодировании при цене $1,74 за миллион входных токенов. Flash ещё дешевле — $0,14.
Контекст
DeepSeek — проект китайской квантовой компании High-Flyer, за год ставший одним из ключевых игроков в гонке открытых LLM. Серия V3 опровергла нарратив «хорошие модели требуют тысячи NVIDIA GPU»: агрессивная оптимизация архитектуры и данных заменила брутфорс. V4 продолжает ту же линию, но радикальнее.
V4-Pro содержит 1,6 трлн параметров, однако при каждом вызове активирует только часть — суть MoE. Потребление вычислений по сравнению с V3 снижено примерно до 27% при аналогичном контексте. V4-Flash ещё компактнее: 284 млрд параметров, 13 активных, около 10% FLOPs и 7% KV-cache от V3. Оба обучены на примерно 32 трлн токенов и оптимизированы под чипы Huawei Ascend — прямой сигнал о том, что китайский AI-стек сознательно уходит от зависимости от NVIDIA.
Три режима рассуждения — Non-think, Think High и Think Max — дают гибкость: быстрые ответы против глубокого планирования. По данным разработчиков, Flash в Think Max приближается к Pro на ряде задач. Значит, $0,14/M — не компромисс, а реальная альтернатива для многих сценариев.
Аналитика
Контекстное окно в миллион токенов — не маркетинг. Это другой класс задач: полный анализ кодовой базы за один вызов, обработка многолетней переписки, юридические документы целиком, RAG без разбивки на чанки. До сих пор такие возможности были либо у закрытых моделей по высокой цене, либо у Gemini с ограниченным доступом. Теперь это MIT с открытыми весами.
На агентных кодинг-бенчмарках V4-Pro конкурирует с Claude Opus 4.6 и Sonnet 4.5. Рейтинг на Codeforces — около 3206. На задачах по знанию мира модель чуть уступает Gemini Pro 3.1. Это важно для позиционирования: DeepSeek V4 — инструмент для инженерных и agentic-пайплайнов, а не универсальный чемпион. Там, где нужен код, агенты, длинный контекст — V4 держит планку топов.
Ключевое — цена. Закрытые модели сопоставимого уровня стоят кратно дороже. Открытость весов означает, что при наличии собственных GPU компании могут развернуть V4-Flash локально и свести стоимость вызовов к нулю. Для стартапов в СНГ, где каждый доллар API-затрат на счету, это прямая экономия без жертв в качестве. Мультимодальность анонсирована только на вторую половину 2026 года — пока только текст.
Кейсы применения в бизнесе
B2B-SaaS стартап с agentic-функциями. Если AI-агент работает с кодом, документами или данными клиентов — замените дорогой закрытый API на V4-Flash через OpenRouter. При аналогичном качестве на кодинг-задачах экономия может составить 10× только на токенах. Миллион токенов контекста снимает необходимость в сложных retrieval-схемах для большинства документов.
Корпорация с legacy и compliance. Юридический или финансовый отдел, которому нужно анализировать многостраничные контракты или нормативные акты — V4-Pro с миллионным контекстом позволяет загрузить весь документ целиком и получить структурированный анализ без потерь из-за chunking. Для банков и страховщиков в Казахстане и Кыргызстане это конкретный сценарий: полный договор плюс регуляторная база в одном промпте.
SMB и локальный бизнес в КР/СНГ. V4-Flash по $0,14 за миллион токенов с 50% ночной скидкой — буквально центы за автоматизацию: обработка заявок, генерация описаний товаров, классификация входящих запросов. Можно начать через API без собственной инфраструктуры, потом перейти на self-hosted при росте объёма.
Кейсы в личной жизни
Разработчик. V4-Pro конкурирует с Claude Sonnet 4.5 на кодинг-задачах. Загрузите весь репозиторий в контекст одним запросом — без ограничений в 200K токенов — и попросите провести рефакторинг или найти архитектурные проблемы. То, что раньше требовало несколько итераций с частичным контекстом, теперь решается за один вызов.
Контент-мейкер или исследователь. Миллион токенов — это около 750 000 слов. Загрузите всю библиографию по теме, транскрипты интервью или архив переписки и попросите синтезировать инсайты. Раньше это требовало RAG-пайплайна, теперь — одного промпта и $0,14.
Студент или фрилансер. Flash по $0,14 за миллион токенов делает AI-помощника доступным при минимальном бюджете. Режим Think Max для сложных задач, Non-think для быстрых правок — переключайте по ситуации и платите только за то, что реально нужно.
«Flash в режиме Think Max по ряду задач приближается к Pro» — если это подтвердится на широкой выборке бенчмарков, $0,14/M станут новым стандартом для production-агентов.
Как применить сегодня
- Подключите deepseek-v4-flash через OpenRouter или HuggingFace — если у вас есть API-интеграция, это займёт 15 минут.
- Протестируйте длинный контекст: загрузите документ или кодовую базу, которую раньше приходилось разбивать. Сравните качество с предыдущим решением.
- Используйте режимы осознанно: Non-think — для классификации и routing, Think Max — только для сложных планировочных шагов. Это снизит стоимость в 3–5×.
- Для self-hosted: веса открыты под MIT, V4-Flash с 13 активными параметрами требует значительно меньше VRAM, чем полный V3. Реальный вариант для команд с GPU.
- Следите за анонсом мультимодальности во второй половине 2026 года — тогда V4 закроет последний gap перед закрытыми конкурентами.
