2026-04-24 12:02 · 🌐 СНГ (tech/AI)

DeepSeek V4: открытая модель с миллионом токенов по $1,74

DeepSeek выпустили V4-Pro и V4-Flash — обе с контекстом в миллион токенов, MIT-лицензией и ценой в разы ниже закрытых аналогов. V4-Pro с 1,6 трлн параметрами конкурирует с Claude Opus 4.6 на агентных кодинг-задачах.

DeepSeek одновременно выпустили две модели — V4-Pro и V4-Flash. Обе построены на архитектуре Mixture-of-Experts, обе поддерживают контекстное окно в один миллион токенов, и обе открыты: веса доступны на HuggingFace под MIT-лицензией. V4-Pro выходит на уровень Claude Opus 4.6 в агентном кодировании при цене $1,74 за миллион входных токенов. Flash ещё дешевле — $0,14.

Контекст

DeepSeek — проект китайской квантовой компании High-Flyer, за год ставший одним из ключевых игроков в гонке открытых LLM. Серия V3 опровергла нарратив «хорошие модели требуют тысячи NVIDIA GPU»: агрессивная оптимизация архитектуры и данных заменила брутфорс. V4 продолжает ту же линию, но радикальнее.

V4-Pro содержит 1,6 трлн параметров, однако при каждом вызове активирует только часть — суть MoE. Потребление вычислений по сравнению с V3 снижено примерно до 27% при аналогичном контексте. V4-Flash ещё компактнее: 284 млрд параметров, 13 активных, около 10% FLOPs и 7% KV-cache от V3. Оба обучены на примерно 32 трлн токенов и оптимизированы под чипы Huawei Ascend — прямой сигнал о том, что китайский AI-стек сознательно уходит от зависимости от NVIDIA.

Три режима рассуждения — Non-think, Think High и Think Max — дают гибкость: быстрые ответы против глубокого планирования. По данным разработчиков, Flash в Think Max приближается к Pro на ряде задач. Значит, $0,14/M — не компромисс, а реальная альтернатива для многих сценариев.

Аналитика

Контекстное окно в миллион токенов — не маркетинг. Это другой класс задач: полный анализ кодовой базы за один вызов, обработка многолетней переписки, юридические документы целиком, RAG без разбивки на чанки. До сих пор такие возможности были либо у закрытых моделей по высокой цене, либо у Gemini с ограниченным доступом. Теперь это MIT с открытыми весами.

На агентных кодинг-бенчмарках V4-Pro конкурирует с Claude Opus 4.6 и Sonnet 4.5. Рейтинг на Codeforces — около 3206. На задачах по знанию мира модель чуть уступает Gemini Pro 3.1. Это важно для позиционирования: DeepSeek V4 — инструмент для инженерных и agentic-пайплайнов, а не универсальный чемпион. Там, где нужен код, агенты, длинный контекст — V4 держит планку топов.

Ключевое — цена. Закрытые модели сопоставимого уровня стоят кратно дороже. Открытость весов означает, что при наличии собственных GPU компании могут развернуть V4-Flash локально и свести стоимость вызовов к нулю. Для стартапов в СНГ, где каждый доллар API-затрат на счету, это прямая экономия без жертв в качестве. Мультимодальность анонсирована только на вторую половину 2026 года — пока только текст.

Кейсы применения в бизнесе

B2B-SaaS стартап с agentic-функциями. Если AI-агент работает с кодом, документами или данными клиентов — замените дорогой закрытый API на V4-Flash через OpenRouter. При аналогичном качестве на кодинг-задачах экономия может составить 10× только на токенах. Миллион токенов контекста снимает необходимость в сложных retrieval-схемах для большинства документов.

Корпорация с legacy и compliance. Юридический или финансовый отдел, которому нужно анализировать многостраничные контракты или нормативные акты — V4-Pro с миллионным контекстом позволяет загрузить весь документ целиком и получить структурированный анализ без потерь из-за chunking. Для банков и страховщиков в Казахстане и Кыргызстане это конкретный сценарий: полный договор плюс регуляторная база в одном промпте.

SMB и локальный бизнес в КР/СНГ. V4-Flash по $0,14 за миллион токенов с 50% ночной скидкой — буквально центы за автоматизацию: обработка заявок, генерация описаний товаров, классификация входящих запросов. Можно начать через API без собственной инфраструктуры, потом перейти на self-hosted при росте объёма.

Кейсы в личной жизни

Разработчик. V4-Pro конкурирует с Claude Sonnet 4.5 на кодинг-задачах. Загрузите весь репозиторий в контекст одним запросом — без ограничений в 200K токенов — и попросите провести рефакторинг или найти архитектурные проблемы. То, что раньше требовало несколько итераций с частичным контекстом, теперь решается за один вызов.

Контент-мейкер или исследователь. Миллион токенов — это около 750 000 слов. Загрузите всю библиографию по теме, транскрипты интервью или архив переписки и попросите синтезировать инсайты. Раньше это требовало RAG-пайплайна, теперь — одного промпта и $0,14.

Студент или фрилансер. Flash по $0,14 за миллион токенов делает AI-помощника доступным при минимальном бюджете. Режим Think Max для сложных задач, Non-think для быстрых правок — переключайте по ситуации и платите только за то, что реально нужно.

«Flash в режиме Think Max по ряду задач приближается к Pro» — если это подтвердится на широкой выборке бенчмарков, $0,14/M станут новым стандартом для production-агентов.

Как применить сегодня

Подключите deepseek-v4-flash через OpenRouter или HuggingFace — если у вас есть API-интеграция, это займёт 15 минут.
Протестируйте длинный контекст: загрузите документ или кодовую базу, которую раньше приходилось разбивать. Сравните качество с предыдущим решением.
Используйте режимы осознанно: Non-think — для классификации и routing, Think Max — только для сложных планировочных шагов. Это снизит стоимость в 3–5×.
Для self-hosted: веса открыты под MIT, V4-Flash с 13 активными параметрами требует значительно меньше VRAM, чем полный V3. Реальный вариант для команд с GPU.
Следите за анонсом мультимодальности во второй половине 2026 года — тогда V4 закроет последний gap перед закрытыми конкурентами.

#DeepSeek #открытые модели #длинный контекст #MoE #agentic

← Все статьи