2026-06-05 14:02 · 🤖 AI World

Как сделать GRPO-обучение эффективнее: replay-буфер даёт +4 pp

Группа корейских исследователей опубликовала метод, который решает давнюю проблему GRPO: каждый роллаут тратится на один градиентный шаг и выбрасывается. Новый буфер переиспользует данные умно — и на math-бенчмарках это даёт до +4.35 процентных пунктов.

3–4 июня 2026 года на arXiv появилась работа корейской группы (Йу, Пак, Чан, Ким, Юн) с предложением улучшить sample efficiency для GRPO — стандартного подхода к post-training обучению reasoning-LLM. Суть проблемы: каждый роллаут используется ровно один раз и удаляется. Простое переиспользование (naive replay) не работает, потому что политика LLM быстро сдвигается с каждым градиентным шагом, и старые роллауты становятся stale — нарушают стабильность обучения. Авторы предлагают три механизма, которые делают replay рабочим.

Контекст

GRPO (Group Relative Policy Optimization) — это алгоритм из семьи RLVR (RL from Verifiable Rewards), который стал популярен после DeepSeek-R1. Он учит модель рассуждать, генерируя группы ответов на задачу и оценивая их относительное качество без внешней reward-модели. Именно GRPO (и его вариации) лежат в основе большинства современных open-source reasoning-моделей: математических, кодинговых, логических.

Проблема sample efficiency актуальна особенно при обучении на дорогостоящих GPU: каждый роллаут требует полного форвард- и бэкворд-прохода, а используется лишь однажды. В supervised fine-tuning это решается trivially — данные можно читать эпохами. В RL это нетривиально: распределение данных зависит от текущей политики, и старые данные буквально мешают.

Авторы тестировали метод на Qwen3-Base нескольких масштабов (включая 4B) на пяти математических бенчмарках. Qwen3 — открытая серия моделей от Alibaba, одна из наиболее часто используемых для экспериментов с reasoning fine-tuning в академической среде.

Аналитика

Три механизма решения проблемы работают в связке. Age eviction: роллаут удаляется из буфера, если с момента его создания прошло более tau_max градиентных шагов — так контролируется максимальная «устарелость» данных. Fresh-anchored composition: каждый батч сохраняет свежие on-policy роллауты и дополняется replay-роллаутами из буфера — политика не «уплывает» полностью в офф-полиси режим. Advantage-magnitude prioritization: в буфер приоритетно отбираются роллауты с большой magnitude advantage — то есть те примеры, на которых модель получила наиболее информативный обучающий сигнал.

Результат: +4.35 pp на среднем по пяти бенчмаркам при 4B-модели относительно базового GRPO. По метрике AES (совместно измеряет точность и токен-эффективность) прирост составил +0.579 при том же масштабе. Авторы отмечают: выигрыш положительный на всех масштабах и растёт с размером модели. Это интересно — обычно техники эффективности больше помогают маленьким моделям, здесь обратная зависимость.

Более широкий тренд: исследовательское сообщество активно ищет способы удешевить post-training reasoning. GRPO уже дешевле PPO, но всё ещё требует значительных вычислений. Replay — один из путей выжать больше из уже сгенерированных данных без дополнительных API-вызовов или разметки. Если метод подтвердится в более широких воспроизведениях — он войдёт в стандартные тренировочные пайплайны open-source reasoning-моделей.

Кейсы применения в бизнесе

B2B-SaaS стартап с domain-specific reasoning: компания дообучает небольшую модель (порядка 4–7B) на внутренних задачах — юридических, финансовых, медицинских. Каждый GPU-час на обучение стоит денег. Внедрение replay-буфера позволяет получить больше «обучающего сигнала» за то же время или достичь нужной точности быстрее. Конкретный шаг: при настройке GRPO-пайплайна использовать библиотеки, поддерживающие кастомный replay (trl, verl), и реализовать age eviction по логике из статьи.

ML-команда в корпорации с legacy: крупная компания периодически дообучает внутреннюю модель на новых данных. Проблема — дорогие GPU-кластеры заняты другими задачами, окно на обучение ограничено. Replay позволяет эффективнее использовать уже сгенерированные роллауты внутри одной сессии обучения. Сценарий — запустить сравнительный эксперимент: GRPO без replay vs. с replay-буфером на части данных, оценить AES-метрику.

SMB и локальный бизнес в КР/СНГ: для небольших команд, которые используют open-source модели через self-hosted инфраструктуру, это скорее не прямой кейс применения, а ориентир: при выборе провайдера или модели для рассуждений — смотреть, использовался ли эффективный post-training. Модели, обученные с replay-техниками, могут давать лучшее соотношение точность/длина ответа (AES), что важно при ограниченном контексте и стоимости инференса.

Кейсы в личной жизни

ML-инженер или исследователь: если вы экспериментируете с GRPO на потребительских GPU (RTX 3090/4090, или облачные A100 на несколько часов), replay-буфер позволяет выжать больше из ограниченного compute. Конкретно: запустите эксперимент на Qwen3-Base 1.7B или 4B с реализацией из этой статьи, сравните кривые обучения на GSM8K или MATH.

Независимый исследователь или студент: статья хорошо описывает три механизма (age eviction, fresh-anchored composition, advantage prioritization) — это отличный учебный кейс для понимания off-policy проблем в LLM RL. Разобрать код (если авторы его выложат) или воспроизвести логику самостоятельно — хорошая практика для портфолио.

Контент-мейкер и технический блогер: тема sample efficiency в LLM RL практически не освещается на русском языке. Первый подробный разбор этой статьи на YouTube или в Telegram-канале соберёт нишевую аудиторию ML-инженеров — сегмент, который активно растёт в СНГ.

Как применить сегодня

Прочитать полный PDF на arXiv (2606.04560) — там есть псевдокод алгоритма и детали реализации буфера.
Если используете trl или verl для GRPO-обучения — проверить, поддерживает ли ваша версия кастомный replay; при необходимости реализовать age eviction вручную.
Для быстрого воспроизведения — взять Qwen3-Base 1.7B (наименьший публично доступный масштаб серии) и запустить сравнение на GSM8K или MATH-500.
Метрика AES (accuracy + token efficiency) — полезный ориентир не только для исследований, но и для продуктовых решений: модель, которая даёт правильный ответ короче, дешевле в инференсе.
Следить за репозиторием авторов — если появится официальный код, интеграция в стандартный GRPO-пайплайн, вероятно, займёт несколько часов.

#GRPO #RL обучение #LLM #reasoning #sample efficiency

← Все статьи