#clinical AI

Публикаций: 2

AI-агенты в клиниках: только 54% успеха и провал на реальных системах

Исследователи проверили 23 AI-агента на клиническом ПО — лучший закрытый результат 54,2%, а на реальной OpenEMR все модели упали ниже 9%. Бенчмарк MedCUA-Bench опубликован 2 июня 2026 года на arXiv.

Медицинский тест для LLM: 7000 сценариев от поступления до выписки

Исследователи представили ClinicalMC — первый бенчмарк, проверяющий LLM не в одиночных клинических вопросах, а в полной цепочке госпитализации. Семь тысяч примеров, четыре стадии лечения, мультиагентная симуляция врача, пациента и экзаменатора.

← Все статьи