2026-05-23 20:02 · 🤖 AI World

Qwen без остановки 35 часов: Alibaba обогнала DeepSeek в гонке агентов

Alibaba выпустила Qwen3.7-Max — модель, которая 35 часов подряд самостоятельно оптимизировала код для собственного кастомного чипа компании. По заявленным бенчмаркам, она обходит DeepSeek V4 Pro и Kimi K2.6 и сопоставима с Claude Opus.

Команда Qwen опубликовала Qwen3.7-Max — проприетарную модель, спроектированную под долгосрочные автономные задачи. Главный демо релиза: модель без перерывов работала 35 часов подряд, оптимизируя программный код для кастомного кремниевого чипа Alibaba. По внутренним бенчмаркам команды, Qwen3.7-Max сопоставим с Claude Opus и опережает ближайших китайских конкурентов — DeepSeek V4 Pro и Kimi K2.6. Дополнительно показан демо управления четырёхногим роботом.

Контекст

Qwen — флагманская LLM-серия Alibaba Group. За последние два года команда выпустила десятки версий: от компактных моделей для мобильных устройств до мультимодальных систем с открытыми весами. Qwen3.7-Max — первая в серии, которую позиционируют именно как агентную модель для production-среды, а не очередной чат-бот или кодирующий ассистент.

Выбор задачи для демо неслучаен. Alibaba активно развивает направление custom silicon — это часть стратегии снижения зависимости от западных поставщиков оборудования. То, что LLM справилась с оптимизацией кода под собственный чип автономно и удержала качество на 35-часовом горизонте, сигнализирует о качественном сдвиге в надёжности агентных систем.

Параллельно команда показала управление четырёхногим роботом. Это вектор в сторону физических агентов — направления, которое исследуют Google DeepMind и ряд китайских стартапов. Alibaba делает ставку на универсальную модель: одна система работает и в виртуальной среде, и в реальном мире.

Аналитика

35 часов непрерывной автономной работы — это не маркетинговый трюк. Большинство текущих агентных систем деградируют через несколько часов: накапливаются ошибки в контексте, модель начинает «галлюцинировать» о прогрессе задачи, инструментальные цепочки ломаются. Если Qwen3.7-Max действительно удерживает качество на таких горизонтах, это закрывает одну из главных причин, почему компании не доверяют агентам критические задачи.

Проприетарный статус модели контрастирует с прежней политикой открытости Qwen-серии. Alibaba не раскрывает архитектуру и параметры. Это говорит о смене стратегии: когда модель становится production-продуктом, а не исследовательским артефактом, открытые веса уходят на второй план. Конкуренция с OpenAI и Anthropic в корпоративном сегменте требует другого подхода к IP.

Важнее другое: Alibaba строит вертикально интегрированный AI-стек. Компания разрабатывает модель, которая оптимизирует код под собственный чип, а чип ускоряет следующее поколение этой же модели. Если этот цикл масштабируется, разрыв между участниками гонки, у которых есть и модели, и кремний, и теми, у кого нет ни того ни другого, будет расти быстро.

Кейсы применения в бизнесе

B2B-SaaS стартап. Агентная модель с длинным горизонтом — реалистичный инструмент для автоматизации рефакторинга и аудита зависимостей. Сценарий: запустить агента на ночь с чётким заданием («перевести все эндпоинты на async, не ломая тесты»), утром получить PR. Это уже рабочий паттерн в средах типа Devin и Cursor — Qwen3.7-Max расширяет пул доступных моделей для таких задач.

Корпорация с legacy. Компании с устаревшими системами на COBOL, PL/SQL или старых Java-фреймворках получают агента, которому можно делегировать миграцию. Задача длится часами — именно здесь долгий горизонт критически важен. Модель, стабильно работающая 35+ часов, переводит такой проект из «пилота» в реальный production-сценарий.

SMB и локальный бизнес в КР/СНГ. Для небольших команд без выделенных ML-инженеров этот релиз означает рост конкуренции среди API-провайдеров и снижение цен. Локальные разработчики уже сейчас могут строить агентные автоматизации через OpenRouter на базе сопоставимых моделей — скоро выбор расширится. Порог входа снижается.

Кейсы в личной жизни

Разработчик. Делегируйте агенту полный цикл небольшой задачи: написать функцию → написать тесты → запустить → исправить ошибки → открыть PR. С моделями, устойчивыми на длинных горизонтах, этот цикл работает без ручного «подпинывания» каждые 20 минут. Начните с задач, которые чётко сформулированы и имеют верифицируемый результат.

Контент-мейкер. Сбор фактуры по теме, перекрёстная проверка источников, структурирование в несколько форматов — идеальные кандидаты для агентного режима. Дайте модели задание на несколько часов и уйдите делать другое. Это уже рабочий паттерн с текущими агентными средами, и 35-часовой демо Alibaba подтверждает направление.

Студент / фрилансер. Автономные агенты снижают барьер входа в сложные технические задачи. Если нужно разобраться в незнакомой кодовой базе или сделать анализ данных в непривычном стеке — агент самостоятельно изучает контекст, декомпозирует подзадачи и возвращает структурированный результат. Не замена обучению, но способ быстро выдавать результат там, где опыта пока нет.

Как применить сегодня

Следите за появлением Qwen3.7-Max в OpenRouter и Alibaba Cloud — модель проприетарная, но API-доступ, вероятно, откроется в ближайшее время.
Протестируйте агентный режим на реальной задаче с верифицируемым выходом: рефакторинг участка кода, аудит зависимостей, перевод документации — всё, что можно проверить автоматически.
Добавьте явные checkpoint'ы в промпт для любого агента: «после каждого шага выведи статус и следующее действие». Это увеличивает стабильность длинных агентных цепочек независимо от используемой модели.
Изучите паттерн AI-assisted hardware optimization, который Alibaba применила для чипа: LLM как инструмент оптимизации систем с формальными метриками качества — этот подход применим к любой задаче с чётким критерием успеха.
Если вы строите агентную систему — закладывайте устойчивость к длинным горизонтам с самого начала: разбивайте задачи на этапы с явными точками проверки и логированием промежуточных состояний.

#Qwen #автономные агенты #Alibaba #agentic AI #LLM

← Все статьи