#GRPO

Публикаций: 2

Как сделать GRPO-обучение эффективнее: replay-буфер даёт +4 pp

Группа корейских исследователей опубликовала метод, который решает давнюю проблему GRPO: каждый роллаут тратится на один градиентный шаг и выбрасывается. Новый буфер переиспользует данные умно — и на math-бенчмарках это даёт до +4.35 процентных пунктов.

Мультимодальный RLVR: строим пайплайн обучения с подкреплением для vision-LLM

Датасет Open-MM-RL от TuringEnterprises превращает обучение с подкреплением для мультимодальных моделей из исследовательской абстракции в практический пайплайн. Разбираем полный цикл: от загрузки датасета и анализа распределений до reward-функции с LaTeX-парсингом и экспорта в GRPO-формат.

← Все статьи