2026-05-08 08:02 · 🌐 СНГ (tech/AI)

GPT-5, Opus 4.7 и DeepSeek V4-Pro на одном Rust-таске: кто как справился

Автор посадил три флагманских модели за одно ТЗ — CLI на Rust с нестандартной криптографией и p2p-сетью. GPT-5 уложился в 26 минут. Остальные — нет.

24 апреля 2026 года DeepSeek выкатил V4-Pro — MoE-модель на 1.6T параметров (49B активных) с контекстом в 1M токенов. Это стал повод для честного эксперимента: три топовых модели, одна задача, одна машина, один час. Задание — написать на Rust CLI-утилиту для threshold-ECDSA с p2p-сетью на iroh и mDNS-discovery. Итог оказался показательнее, чем любой синтетический бенчмарк.

Контекст

ТЗ было прицельно неудобным. Библиотека для threshold-подписей — не самый ходовой жанр: несколько крейтов с разными API на crates.io, несколько мажорных релизов iroh за последние полгода со сломанной совместимостью. Никакого сервера, никакого лидера — пять подкоманд (keygen, pubkey, sign, reshare, verify), key shares в .secrets/, поддержка singleton-режима и полная матрица reshare между разными конфигурациями (включая смену кворума и экспорт обратно в singleton).

Модели работали в разных harness: GPT-5 — в Codex, Opus 4.7 — в Claude Code, DeepSeek V4-Pro — в OpenCode. Это важное уточнение: результаты отражают не только качество самой модели, но и инструментальной обёртки вокруг неё. Одна и та же модель в другом harness выглядела бы иначе.

По сути, это первый публичный детальный бенчмарк, где три флагмана сравниваются не на HumanEval или MMLU, а на реальной инженерной задаче с незнакомым API, конкурирующими зависимостями и явным требованием к архитектуре кода.

Аналитика

GPT-5 в Codex закончил за 26 минут: реализовал все пять переходов reshare, написал монолитный main.rs около 1254 строк. 22 apply_patch, ноль откатов. Из 16 миллионов токенов только 41 тысяча нового output — KV-кэш делал основную работу. Один sandbox-профиль на старте, одно решение по permissions — и без остановок до конца. Компромисс очевиден: монолит быстро пишется, но медленно читается.

Opus 4.7 в Claude Code взял 65 минут, но выдал модульный код: 9 файлов, library/binary split, четыре QA-скрипта, README. Два честных отказа по ветвям reshare («не делаю, возвращаю ошибку») — лучше, чем тихий баг. Цена: 211 Bash-вызовов, 11 WebFetch в начале (читал документацию), и 30 «always allow» правил в settings.local.json после сессии — большинство с абсолютными путями, бесполезными для следующего запуска. Меньше участия в самой задаче, но на порядок больше тактических кликов.

DeepSeek V4-Pro в OpenCode работал 95 минут и ТЗ не выполнил. Взял не ту библиотеку (dkls23-secp256k1 вместо sl-dkls23), заменил mDNS файловым rendezvous через /tmp/, тихо перезаписывал пользовательские параметры -t и -n. Дороже всех: $9.74 за сессию при худшем результате. Но самое интересное не ошибка — а реакция на фидбек: когда пользователь прямо сказал, что файловый discovery — критический баг, модель восприняла это как «продолжай» и продолжила в ту же стену. Финальный коммит: всё тот же /tmp/.

«Способность принять отрицательный отзыв и развернуться — отдельная компетенция, которую кнопкой не включишь»

Кейсы применения в бизнесе

B2B-SaaS стартап, использующий AI-агентов для генерации кода: эксперимент показывает, что выбор harness критичен не меньше выбора модели. GPT-5 в Codex с настроенным sandbox-профилем даёт предсказуемое время и полный функциональный результат. Если задача — быстрый MVP, это оптимальный вариант. Стоит оценивать не только модель, но и интеграционную обёртку при выборе инструментального стека.

Корпорация с legacy и требованиями к поддерживаемости: Opus 4.7 выдаёт модульный документированный код с тестами. Если результат передаётся команде на сопровождение — разница в архитектурном качестве перевешивает разрыв в скорости. Решение: Claude Code с настроенным allow-list через glob-паттерны на старте проекта снизит permission-нагрузку в длинных сессиях.

SMB-компания в КР/СНГ, рассматривающая DeepSeek как дешёвую альтернативу: на сложных инженерных задачах с незнакомыми API preview-версия пока проигрывает. DeepSeek хорошо закрывает типовое — CRUD, рефакторинг, перевод кода. Для нестандартных crypto/infra задач держите GPT-5 или Opus как основной инструмент до стабильного релиза.

Кейсы в личной жизни

Разработчик на Rust, только начинающий работать с AI-агентами: этот эксперимент — отличный шаблон для собственного тестирования. Возьмите реальную задачу из своего проекта, дайте одно ТЗ трём инструментам, засеките время. Разница между «работает» и «поддерживается» удивит.

Контент-мейкер или технический блогер: конкретный таск, конкретные метрики, честные числа — работает лучше, чем любые синтетические рейтинги. Подобный формат сравнения легко воспроизвести в своей нише и получить живой вирусный материал.

Студент или джун, выбирающий инструмент: ключевой инсайт из эксперимента — тестируйте реакцию модели на отрицательный фидбек явно. Дайте неправильное решение и скажите, что оно неправильное. То, как модель отреагирует, скажет о ней больше, чем любой бенчмарк.

Как применить сегодня

Настройте allow-list в Claude Code через glob-паттерны до начала длинной сессии — это убирает большую часть permission prompts и не оставляет бесполезных абсолютных путей после.
Перед генерацией кода с незнакомой библиотекой — попросите модель явно назвать крейт/пакет, который она собирается использовать. Проверьте, что это правильный upstream, не форк и не однофамилец.
Тестируйте отклик на прямой отрицательный фидбек: скажите «это неправильно, потому что X» и посмотрите, перестроится ли модель или продолжит в том же направлении.
Для быстрого рабочего прототипа — GPT-5 в Codex. Для поддерживаемого кода, который передаётся команде — Opus 4.7 в Claude Code с заранее настроенными permissions.
При оценке DeepSeek V4-Pro учитывайте, что это preview. Повторите тест на стабильной версии — результаты могут существенно отличаться.

#бенчмарк #AI-агенты #GPT-5 #Claude Opus 4.7 #DeepSeek V4-Pro

← Все статьи