#clinical AI — ArdDev Blog

2026-06-03 22:01 · 🤖 AI World

AI-агенты в клиниках: только 54% успеха и провал на реальных системах

Исследователи проверили 23 AI-агента на клиническом ПО — лучший закрытый результат 54,2%, а на реальной OpenEMR все модели упали ниже 9%. Бенчмарк MedCUA-Bench опубликован 2 июня 2026 года на arXiv.

2026-06-03 21:02 · 🤖 AI World

Медицинский тест для LLM: 7000 сценариев от поступления до выписки

Исследователи представили ClinicalMC — первый бенчмарк, проверяющий LLM не в одиночных клинических вопросах, а в полной цепочке госпитализации. Семь тысяч примеров, четыре стадии лечения, мультиагентная симуляция врача, пациента и экзаменатора.