Как сделать GRPO-обучение эффективнее: replay-буфер даёт +4 pp
Группа корейских исследователей опубликовала метод, который решает давнюю проблему GRPO: каждый роллаут тратится на один градиентный шаг и выбрасывается. Новый буфер переиспользует данные умно — и на math-бенчмарках это даёт до +4.35 процентных пунктов.