2026-05-09 08:02 · 🌐 СНГ (tech/AI)

DeepSeek сам выбирал тесты. NIST выбрал другие — и разрыв вырос вдвое

DeepSeek V4 Pro заявила об отставании от американских моделей на 3–6 месяцев. NIST провёл независимый аудит на закрытых бенчмарках — и насчитал минимум 8 месяцев.

DeepSeek анонсировала V4 Pro с громким тезисом: отставание от фронтира США — всего 3–6 месяцев. NIST — американский институт стандартов при Министерстве торговли — решил проверить это утверждение самостоятельно. Результат: реальный разрыв не менее 8 месяцев, а по совокупному рейтингу DeepSeek V4 Pro соперничает не с Opus, а с mini-моделями GPT.

Контекст

Бенчмарк-войны — устоявшийся жанр в LLM-индустрии. Каждая лаборатория, выпуская новую модель, самостоятельно выбирает задачи для сравнения: берёт те, где модель смотрится выигрышно, и обходит стороной неудобные. DeepSeek здесь не исключение. В техническом отчёте к V4 Pro компания сравнивала модель по SWE-Bench (кодинг), Codeforces, GPQA Diamond (наука) и математическим задачам — именно там китайская модель идёт вровень с Claude Opus 4.6 и GPT-5.4.

NIST подошёл иначе: состав тестов зафиксировали до прогона моделей. Ключевое дополнение — два закрытых бенчмарка: ARC-AGI-2 на абстрактное мышление и PortBench на перевод утилит с одного языка программирования на другой. DeepSeek не видел эти задачи заранее — подогнать под них модель было невозможно.

Это первый публичный независимый аудит LLM такого масштаба. NIST фактически предложил шаблон для всей индустрии: как должна выглядеть честная оценка языковых моделей, если заниматься этим серьёзно.

Аналитика

На тестах NIST разрыв оказался разительным. Кибербезопасность: 32% у DeepSeek V4 Pro против 71% у GPT-5.5. Абстрактное мышление: 46% против 79%. Агентский кодинг: 44% против 78%. Разница в 30+ пунктов — это не статистический шум. Это системный провал на задачах, где модели нужно удерживать длинную цепочку шагов в «голове»: аgentic-поведение, планирование, перенос логики между контекстами.

NIST свёл девять бенчмарков в единый Elo-рейтинг — как в шахматах. Итог: GPT-5.5 — 1260 баллов, Claude Opus 4.6 — 999, DeepSeek V4 Pro — 800, GPT-5.4 mini — 749. По совокупной мощности DeepSeek V4 Pro — это не конкурент Opus. Это чуть лучше mini. Компания называла себя лидером; по независимым данным — четвёртое место из четырёх.

Тем не менее у DeepSeek есть настоящее преимущество: цена. На семи бенчмарках с прямым сравнением V4 Pro дешевле GPT-5.4 mini в пяти случаях. На SWE-Bench разница двукратная — 17 центов за задачу против 36 у OpenAI. Это честный аргумент, но только для сценариев, где агентная логика и кибербезопасность не нужны.

«Когда DeepSeek готовила технический отчёт, она сама выбирала, на каких бенчмарках будет сравнивать модель с конкурентами. NIST так делать не стал» — суть расследования в одном предложении.

Кейсы применения в бизнесе

B2B-SaaS стартап с AI-фичей. Если задача — генерация кода, автодополнение, парсинг структурированных данных — DeepSeek V4 Pro по соотношению цена/качество конкурентен: на SWE-Bench он сравним с топами при вдвое меньшей стоимости. Но если фича требует агентного поведения (длинные цепочки, кибербезопасность, автономное переосмысление задач) — GPT-5.5 или Claude Opus выдадут результат, который DeepSeek не воспроизведёт при той же точности.

Корпорация с legacy-инфраструктурой. Для compliance-задач и аудита кода, где важна безопасность и формальная проверка — данные NIST по кибербезопасности (32% vs 71%) должны быть стоп-сигналом. Здесь разумно использовать модели с более высоким рейтингом NIST, даже если они дороже.

SMB в Кыргызстане и Центральной Азии. Для автоматизации текстов, базового кодинга, перевода, суммаризации — DeepSeek V4 Pro остаётся сильным выбором по цене. Главное правило: тестировать на собственной задаче из реальной работы, а не доверять маркетинговым таблицам производителя.

Кейсы в личной жизни

Разработчик. Рутинные задачи — написание тестов, рефакторинг, ревью простых изменений — DeepSeek V4 Pro за меньшие деньги даст сравнимый результат с топами. Для сложных агентных сценариев (автономная разработка фичи от A до Z, отладка многошаговых пайплайнов) — GPT-5.5 или Opus окупятся точностью.

Контент-мейкер и фрилансер. Для работы с текстами, идеями, структурами — разрыв в бенчмарках NIST слабо ощущается на практике. DeepSeek V4 Pro вполне справляется, экономия на токенах реальна.

Студент или исследователь. История с NIST — хороший кейс для понимания, как читать технические отчёты LLM. Когда лаборатория сама выбирает тесты — это маркетинг, не наука. Независимый аудит с закрытыми задачами — другой разговор.

Как применить сегодня

При выборе модели смотри не на бенчмарки из пресс-релиза, а на независимые источники — NIST, HELM, LMSYS Arena, где состав задач зафиксирован заранее.
Для агентного кодинга, кибербезопасности, многошагового рассуждения — ориентируйся на Elo-рейтинг NIST, а не на SWE-Bench из технического отчёта производителя.
Для бюджетных сценариев (суммаризация, перевод, базовый кодинг) DeepSeek V4 Pro остаётся сильным выбором — стоимость задачи вдвое ниже GPT mini.
Введи правило: прогонять кандидата-модель на собственной задаче из реальной работы, а не доверять чужим таблицам сравнений.
Следи за публикациями NIST по оценке LLM — это становится стандартом честного аудита для всей индустрии.

#DeepSeek #бенчмарки #NIST #LLM #оценка моделей

← Все статьи