#computer-use

Публикаций: 1

AI-агенты в клиниках: только 54% успеха и провал на реальных системах

Исследователи проверили 23 AI-агента на клиническом ПО — лучший закрытый результат 54,2%, а на реальной OpenEMR все модели упали ниже 9%. Бенчмарк MedCUA-Bench опубликован 2 июня 2026 года на arXiv.

← Все статьи