Команда исследователей из Microsoft Research и партнёрских организаций опубликовала MedCUA-Bench — первый интерактивный бенчмарк для оценки AI-агентов, работающих с клиническим ПО через скриншоты. Протестировано 23 агента на 18 клинических сценариях из 10 медицинских доменов. Итог: лучшая закрытая модель набрала 54,2% строгого успеха на синтетических интерфейсах. На реальной системе OpenEMR все модели — ниже 9%. Open-source агенты в среднем — 2,5%, лучший — 16,2%.
Контекст
Computer-use агенты — это LLM, которые видят экран как скриншот и управляют мышью/клавиатурой. Anthropic продвигает этот паттерн через Computer Use API, OpenAI — через Operator. Идея: агент садится за рабочее место врача или регистратора и выполняет рутину — заполнение форм, поиск в карте пациента, ввод назначений.
Проблема: все существующие бенчмарки (OSWorld, WebArena и др.) заточены под общий веб и десктоп. Медицинские системы устроены принципиально иначе — специфичный UI без стандартных паттернов, необходимость клинических знаний, высокие требования к безопасности и нулевой толерантности к ошибкам. Публичных тестовых сред для MedEHR почти нет.
Авторы (Jia Yu, Zilong Wang, Xinyang Jiang, Dongsheng Li, Shuo Wang) реконструировали интерфейсы из реальных мануалов к продуктам и открытых медицинских систем, чтобы сохранить аутентичность, не нарушая лицензии и конфиденциальность пациентов. Каждая задача содержит два уровня целей: intent-level (что нужно достичь клинически) и step-level (конкретные UI-шаги). Плюс — детерминированный чекер по 5 измерениям клинической безопасности.
Аналитика
Цифры говорят сами. 54,2% лучшей закрытой модели на синтетических интерфейсах — это сильно, но недостаточно для продакшн-клиники, где ошибка в назначении или дозировке — юридическая и физическая угроза. А переход к реальной OpenEMR обваливает всё ниже 9%. Это типичный gap между лабораторными условиями и реальностью: агенты учатся на паттернах публичного веба, а медицинский UI проектировался без них.
Важна сама идея разделения целей. Когда агент «провалил задачу», непонятно: он не понял клинический смысл — или просто не нашёл кнопку? MedCUA-Bench отвечает на этот вопрос. Это меняет вектор доработки: если падение на intent-level — дообучай на медицинских знаниях; если на step-level — улучшай UI-grounding.
Более широкий сигнал: agentic AI в вертикальных доменах (медицина, право, финансы, промышленность) требует domain-specific бенчмарков и domain-specific fine-tuning. Общий RLHF на интернете здесь не работает. Кто первым закроет этот gap с валидированными вертикальными агентами — тот и получит контракты с корпоративными и государственными клиентами.
Кейсы применения в бизнесе
B2B-SaaS стартап в медтехе: Если вы строите AI-ассистента для клиник — MedCUA-Bench можно использовать как внешнюю валидацию продукта. Достигнуть 70%+ на бенчмарке при демонстрации инвестору или больнице — конкретный дифференциатор. Сценарий: интегрировать чекер из бенчмарка в CI/CD пайплайн, чтобы регрессии по клинической безопасности фиксировались автоматически при каждом деплое.
Корпорация с legacy-медсистемами: Если ваша организация работает с OpenEMR или аналогом и хочет автоматизировать рутину регистратур — результаты бенчмарка означают одно: не ждите коробочного решения. Нужен fine-tuned агент на ваших конкретных интерфейсах + обязательный human-in-the-loop на критических операциях. Пилот — на низкорисковых задачах: поиск записей, формирование отчётов, напоминания.
Локальная медклиника в КР/СНГ: Прямой деплой computer-use агента сегодня — преждевременно. Но осмысленный шаг — автоматизация не через «агент видит экран», а через структурированные API к вашей МИС или чат-бот для первичного приёма, который передаёт структурированные данные врачу. Это решаемо уже сейчас, без рисков ошибки агента в интерфейсе.
Кейсы в личной жизни
Разработчик AI-продуктов: Изучи методологию MedCUA-Bench — разделение intent/step целей и детерминированный safety-чекер применимы в любом вертикальном агенте, не только медицинском. Если делаешь агентную автоматизацию для юристов или бухгалтеров — та же структура бенчмарка помогает понять, где агент реально ломается.
Студент или исследователь в AI: Это открытый бенчмарк на arXiv с reproducible testbed — готовая база для дипломной работы или research-проекта. Попробовать open-source агент на медицинских сценариях, улучшить grounding через промпт-инжиниринг и показать прирост над базовым 2,5% — вполне реальная задача.
Врач или менеджер клиники, следящий за AI-трендами: Эти цифры — аргумент в разговоре с вендорами, которые продают «AI, который автоматизирует вашу МИС». Спрашивай: какой у вас результат на MedCUA-Bench? Как вы оцениваете клиническую безопасность? Бенчмарки существуют не только для учёных.
Как применить сегодня
- Прочитай препринт arXiv:2606.03203 — методология safety-чекера применима для любой вертикальной автоматизации, не только медицины.
- Если строишь агентную автоматизацию: разбей оценку на два уровня — intent (правильно ли понял задачу) и step (правильно ли выполнил в UI). Это сразу укажет, где копать.
- Для пилота в вертикальном домене: начинай с задач, где ошибка исправима (поиск, черновики, уведомления), не с задач где ошибка необратима (запись назначения, финансовый документ).
- Human-in-the-loop — не временная мера, а архитектурное решение для высокорисковых доменов. Проектируй под него сразу.
- Следи за тем, как вендоры computer-use агентов (Anthropic, OpenAI, Google) будут реагировать на этот бенчмарк — первые улучшения на MedCUA-Bench покажут, кто серьёзно идёт в вертикальные рынки.