2026-06-03 22:01 · 🤖 AI World

AI-агенты в клиниках: только 54% успеха и провал на реальных системах

Исследователи проверили 23 AI-агента на клиническом ПО — лучший закрытый результат 54,2%, а на реальной OpenEMR все модели упали ниже 9%. Бенчмарк MedCUA-Bench опубликован 2 июня 2026 года на arXiv.

Команда исследователей из Microsoft Research и партнёрских организаций опубликовала MedCUA-Bench — первый интерактивный бенчмарк для оценки AI-агентов, работающих с клиническим ПО через скриншоты. Протестировано 23 агента на 18 клинических сценариях из 10 медицинских доменов. Итог: лучшая закрытая модель набрала 54,2% строгого успеха на синтетических интерфейсах. На реальной системе OpenEMR все модели — ниже 9%. Open-source агенты в среднем — 2,5%, лучший — 16,2%.

Контекст

Computer-use агенты — это LLM, которые видят экран как скриншот и управляют мышью/клавиатурой. Anthropic продвигает этот паттерн через Computer Use API, OpenAI — через Operator. Идея: агент садится за рабочее место врача или регистратора и выполняет рутину — заполнение форм, поиск в карте пациента, ввод назначений.

Проблема: все существующие бенчмарки (OSWorld, WebArena и др.) заточены под общий веб и десктоп. Медицинские системы устроены принципиально иначе — специфичный UI без стандартных паттернов, необходимость клинических знаний, высокие требования к безопасности и нулевой толерантности к ошибкам. Публичных тестовых сред для MedEHR почти нет.

Авторы (Jia Yu, Zilong Wang, Xinyang Jiang, Dongsheng Li, Shuo Wang) реконструировали интерфейсы из реальных мануалов к продуктам и открытых медицинских систем, чтобы сохранить аутентичность, не нарушая лицензии и конфиденциальность пациентов. Каждая задача содержит два уровня целей: intent-level (что нужно достичь клинически) и step-level (конкретные UI-шаги). Плюс — детерминированный чекер по 5 измерениям клинической безопасности.

Аналитика

Цифры говорят сами. 54,2% лучшей закрытой модели на синтетических интерфейсах — это сильно, но недостаточно для продакшн-клиники, где ошибка в назначении или дозировке — юридическая и физическая угроза. А переход к реальной OpenEMR обваливает всё ниже 9%. Это типичный gap между лабораторными условиями и реальностью: агенты учатся на паттернах публичного веба, а медицинский UI проектировался без них.

Важна сама идея разделения целей. Когда агент «провалил задачу», непонятно: он не понял клинический смысл — или просто не нашёл кнопку? MedCUA-Bench отвечает на этот вопрос. Это меняет вектор доработки: если падение на intent-level — дообучай на медицинских знаниях; если на step-level — улучшай UI-grounding.

Более широкий сигнал: agentic AI в вертикальных доменах (медицина, право, финансы, промышленность) требует domain-specific бенчмарков и domain-specific fine-tuning. Общий RLHF на интернете здесь не работает. Кто первым закроет этот gap с валидированными вертикальными агентами — тот и получит контракты с корпоративными и государственными клиентами.

Кейсы применения в бизнесе

B2B-SaaS стартап в медтехе: Если вы строите AI-ассистента для клиник — MedCUA-Bench можно использовать как внешнюю валидацию продукта. Достигнуть 70%+ на бенчмарке при демонстрации инвестору или больнице — конкретный дифференциатор. Сценарий: интегрировать чекер из бенчмарка в CI/CD пайплайн, чтобы регрессии по клинической безопасности фиксировались автоматически при каждом деплое.

Корпорация с legacy-медсистемами: Если ваша организация работает с OpenEMR или аналогом и хочет автоматизировать рутину регистратур — результаты бенчмарка означают одно: не ждите коробочного решения. Нужен fine-tuned агент на ваших конкретных интерфейсах + обязательный human-in-the-loop на критических операциях. Пилот — на низкорисковых задачах: поиск записей, формирование отчётов, напоминания.

Локальная медклиника в КР/СНГ: Прямой деплой computer-use агента сегодня — преждевременно. Но осмысленный шаг — автоматизация не через «агент видит экран», а через структурированные API к вашей МИС или чат-бот для первичного приёма, который передаёт структурированные данные врачу. Это решаемо уже сейчас, без рисков ошибки агента в интерфейсе.

Кейсы в личной жизни

Разработчик AI-продуктов: Изучи методологию MedCUA-Bench — разделение intent/step целей и детерминированный safety-чекер применимы в любом вертикальном агенте, не только медицинском. Если делаешь агентную автоматизацию для юристов или бухгалтеров — та же структура бенчмарка помогает понять, где агент реально ломается.

Студент или исследователь в AI: Это открытый бенчмарк на arXiv с reproducible testbed — готовая база для дипломной работы или research-проекта. Попробовать open-source агент на медицинских сценариях, улучшить grounding через промпт-инжиниринг и показать прирост над базовым 2,5% — вполне реальная задача.

Врач или менеджер клиники, следящий за AI-трендами: Эти цифры — аргумент в разговоре с вендорами, которые продают «AI, который автоматизирует вашу МИС». Спрашивай: какой у вас результат на MedCUA-Bench? Как вы оцениваете клиническую безопасность? Бенчмарки существуют не только для учёных.

Как применить сегодня

Прочитай препринт arXiv:2606.03203 — методология safety-чекера применима для любой вертикальной автоматизации, не только медицины.
Если строишь агентную автоматизацию: разбей оценку на два уровня — intent (правильно ли понял задачу) и step (правильно ли выполнил в UI). Это сразу укажет, где копать.
Для пилота в вертикальном домене: начинай с задач, где ошибка исправима (поиск, черновики, уведомления), не с задач где ошибка необратима (запись назначения, финансовый документ).
Human-in-the-loop — не временная мера, а архитектурное решение для высокорисковых доменов. Проектируй под него сразу.
Следи за тем, как вендоры computer-use агентов (Anthropic, OpenAI, Google) будут реагировать на этот бенчмарк — первые улучшения на MedCUA-Bench покажут, кто серьёзно идёт в вертикальные рынки.

#computer-use #медицина #AI агенты #бенчмарк #clinical AI

← Все статьи