#RL-обучение — ArdDev Blog

2026-07-14 02:11 · 🤖 AI World

TRACE от Stanford: агенты учатся на своих провалах автоматически

Stanford представил TRACE — систему, которая сама диагностирует повторяющиеся сбои агента, синтезирует под каждый тип ошибки отдельную RL-среду и обучает свой LoRA-адаптер. Результат на SWE-bench Verified — 73.2% Pass@1, рост на +15.3 балла по τ²-Bench.