Новый бенчмарк: ИИ справляется лишь с 3% реальных рабочих задач
Исследователи опубликовали бенчмарк, имитирующий настоящую офисную работу — анализ, исследования, многошаговые решения. Лучшая из протестированных моделей полностью решила 3% задач.
Публикаций: 1
Исследователи опубликовали бенчмарк, имитирующий настоящую офисную работу — анализ, исследования, многошаговые решения. Лучшая из протестированных моделей полностью решила 3% задач.