#RL обучение

Публикаций: 1

Как сделать GRPO-обучение эффективнее: replay-буфер даёт +4 pp

Группа корейских исследователей опубликовала метод, который решает давнюю проблему GRPO: каждый роллаут тратится на один градиентный шаг и выбрасывается. Новый буфер переиспользует данные умно — и на math-бенчмарках это даёт до +4.35 процентных пунктов.

← Все статьи