AI-агент в QA: +29 п.п. recall — это не модель, это пайплайн
Разработчик устал оценивать улучшения AI-агента «на глаз» и собрал контролируемый бенчмарк: Flask-приложение с 25 намеренными багами, эталонный список, воспроизводимые прогоны. Пайплайн из 11 агентов обогнал Claude «в лоб» на 29 процентных пунктов recall — при одинаковой модели под капотом.