← Все статьи
2026-06-07 02:01 · 🤖 AI World

Qwen3.7-Plus: Alibaba строит агента, который видит экран и пишет код сам

Alibaba выпустила Qwen3.7-Plus — мультимодальную агентную модель, которая видит экран, управляет GUI и пишет код в едином цикле. В демо агент за 11 часов написал более 10 000 строк кода для приложения по изучению словарного запаса.

Qwen3.7-Plus: Alibaba строит агента, который видит экран и пишет код сам

Команда Qwen из Alibaba выпустила Qwen3.7-Plus — мультимодальный агент, объединяющий визуальное восприятие, управление графическим интерфейсом и написание кода в единый цикл исполнения. В опубликованном демо агент самостоятельно разработал приложение для изучения слованого запаса: более 10 000 строк кода через 1 000 агентских вызовов за 11 часов — без участия человека на уровне кода. По бенчмаркам самой Alibaba модель лидирует в задачах понимания экранного контента, хотя общая картина по другим метрикам смешанная. Модель проприетарная, открытых весов нет, но по заявленной цене — заметно дешевле западных аналогов.

Контекст

Alibaba строит экосистему Qwen уже несколько лет. Линейка выросла от текстовых моделей до мультимодальных, причём Alibaba последовательно выпускает как открытые веса (серия Qwen2.5), так и закрытые коммерческие варианты. Qwen3.7-Plus — это ставка на agentic-сегмент: модель, которая не просто отвечает на вопросы, а действует: видит интерфейс, кликает, запускает код, читает результаты и идёт дальше.

Гонка за полностью автономным агентом идёт по всей индустрии. Anthropic развивает computer use в Claude, OpenAI строит Operator, Google тестирует Project Mariner. Alibaba, имея огромную облачную инфраструктуру и доступ к азиатским рынкам, выходит с собственным вариантом — и ценовое позиционирование явно нацелено на глобальный охват, где ценовая конкурентоспособность критична.

Интересно, что модель закрытая. Это нетипично для Alibaba, которая активно использовала открытые веса как маркетинговый инструмент. Выбор проприетарного пути для Qwen3.7-Plus сигнализирует: в агентном сегменте ставки выше, и компания не готова отдавать конкурентное преимущество через открытый доступ.

Аналитика

Демо с 10 000 строк кода за 11 часов — это не просто маркетинговый трюк. Это конкретная метрика: модель держит контекст и последовательность задач на протяжении тысячи вызовов. Большинство сегодняшних агентных систем ломаются задолго до этой отметки — из-за потери контекста, галлюцинаций на стыке шагов или неспособности корректно интерпретировать состояние интерфейса после каждого действия. Если этот результат воспроизводится за пределами демо, это реальный шаг вперёд.

При этом «смешанные результаты» по другим бенчмаркам — честное признание, что модель узкоспециализирована. Она заточена под GUI-агентику и кодинг, не претендует быть универсальным фронтиром. Такая специализация — нормальный и зрелый сигнал для рынка: не одна модель на всё, а разные инструменты под разные задачи.

Ценовой угол существенен. Если Qwen3.7-Plus действительно стоит значительно дешевле сопоставимых западных решений, это открывает сегмент для компаний, которым агентная автоматизация была недоступна по экономике. В Центральной Азии и СНГ, где бюджеты на AI-инфраструктуру ограничены, разница в стоимости токена нередко и есть решающий фактор.

Кейсы применения в бизнесе

B2B-SaaS стартап: внутренний QA-агент, который запускает браузер, проходит user flow, скриншотит баги и заводит задачи в трекере — без отдельного QA-инженера на рутинных регрессиях. При грамотной настройке сценарий окупается за недели.

Корпорация с legacy-инфраструктурой: агент-оператор, работающий с устаревшими десктопными системами через GUI, где API нет и не будет. Вместо дорогостоящей интеграции — модель, которая «видит» экран и действует как человек-оператор, но в 10 раз быстрее на монотонных операциях.

SMB и локальный бизнес в КР/СНГ: автоматизация рутины в 1С, CRM или таблицах через агента, который умеет взаимодействовать с интерфейсом напрямую. Порог входа снижается: не нужен программист для каждой автоматизации — достаточно описать задачу и дать агенту доступ к экрану.

Кейсы в личной жизни

Разработчик: делегировать агенту написание шаблонного кода, тестов или документации по готовой спецификации. Qwen3.7-Plus умеет видеть интерфейс IDE и работать внутри него — это иной уровень, чем просто автодополнение в редакторе.

Контент-мейкер: агент, который собирает материал из нескольких источников через браузер, структурирует его и готовит черновик — без ручного копирования между вкладками. Экономия по несколько часов в неделю на исследовательских задачах.

Фрилансер: автоматизация отчётности клиентам — агент заходит в нужные системы, выгружает данные, оформляет сводку. То, что раньше занимало час, превращается в фоновый процесс.

Как применить сегодня

  • Изучить документацию Qwen3.7-Plus через официальный API Alibaba Cloud — у модели есть коммерческий доступ.
  • Начать с задачи GUI-автоматизации, где сейчас используется ручной труд: заполнение форм, навигация по CRM, сбор данных с экрана.
  • Сравнить стоимость токена Qwen3.7-Plus с Claude computer use и GPT-4o на вашем реальном объёме вызовов — разница в экономике может быть существенной.
  • Протестировать демо-сценарий: дать агенту задачу написать простой инструмент (парсер, скрипт, форму) и оценить качество вывода на вашем конкретном стеке.
  • Подумать, какая рутина в бизнесе требует одновременно видеть экран + принимать решения + писать код — именно здесь Qwen3.7-Plus имеет преимущество перед текстовыми моделями.
10 000 строк кода за 11 часов через 1 000 агентских вызовов — это первый публичный результат такого масштаба для мультимодального агента. Пока это демо, но именно с таких демо начинается перестройка ожиданий рынка.
← Все статьи