2026-06-20 12:02 · 🤖 AI World

10% токенов дают +14,9% к reasoning: ICT против энтропийного коллапса

Девять исследователей опубликовали на arXiv метод ICT, который при RLVR-обучении LLM обновляет только 10% «особых» токенов вместо всех подряд. На моделях Qwen2.5 это дало средний прирост pass@4 на 4,58% и до 14,9% максимум — без роста размера модели.

18 июня 2026 года команда из девяти авторов опубликовала на arXiv статью о фреймворке ICT (Independent Combinatorial Tokens). Суть: при reinforcement learning с верифицируемыми наградами (RLVR) LLM страдают от двух крайностей — энтропия либо схлопывается (модель застревает в узком наборе стратегий), либо взрывается (генерирует бессвязные цепочки рассуждений). ICT решает обе крайности через точечное обновление только тех токенов, которые статистически выбиваются из общего распределения.

Контекст

RLVR стало стандартной техникой для улучшения reasoning в LLM — именно так обучались модели семейства DeepSeek-R1 и аналогичные системы. Схема простая: модель генерирует цепочку рассуждений, внешний верификатор проверяет финальный ответ, модель получает бинарный сигнал. Это работает лучше, чем дистилляция из учителя, но создаёт свои структурные проблемы.

Главная из них — нестабильность оптимизации. Алгоритм GRPO, который лежит в основе многих RLVR-пайплайнов, обновляет все токены в последовательности равномерно. Представьте редактора, который правит каждое слово в тексте с одинаковым усердием — и ключевое понятие в заголовке, и союз «и» в середине абзаца. Результат: «энтропийный коллапс» — модель слишком быстро убеждается, что нашла хорошую стратегию, и перестаёт исследовать альтернативы, то есть застревает в локальном оптимуме.

Попытки исправить это через максимизацию энтропии (методы типа 20-Entropy) приводят к обратной крайности — модель начинает «разбрасываться» и генерирует всё менее связные рассуждения. Авторы называют это «энтропийным взрывом». ICT предлагает третий, более хирургический путь.

Аналитика

Ключевая идея ICT — смотреть не на скалярную величину неопределённости (энтропию токена), а на форму распределения вероятностей по логитам. Для этого используется дивергенция Дженсена-Шеннона (JS divergence) между распределением логитов конкретного токена и референсным распределением. Токены с нестандартным паттерном — «критические точки ветвления» в процессе рассуждения.

Метод обновляет только топ-10% токенов по этой метрике. Теоретически доказано через Shannon entropy и Rényi entropy второго порядка, что такой выборочный подход одновременно снижает общую неопределённость и предотвращает чрезмерную концентрацию распределения — решая обе крайности одним механизмом. Это не эвристика, а математически обоснованный результат.

Практически: на Qwen2.5 в конфигурациях 0.5B, 1.5B и 7B средний прирост pass@4 составил 4,58% по семи бенчмаркам — математика, здравый смысл, задачи уровня олимпиад. Максимальный прирост — 14,9% по сравнению с GRPO, 20-Entropy и STAPO. При том что backward pass затрагивает только каждый десятый токен. Для индустрии это сигнал: не всегда нужна более крупная модель — иногда достаточно понять, какие токены в цепочке несут смысловую нагрузку, и обучать именно их.

Кейсы применения в бизнесе

B2B-SaaS стартап с AI-продуктом. Если вы файнтюните открытую модель (Qwen2.5, DeepSeek) под специфическую задачу — юридический анализ, финансовые расчёты, медицинская диагностика — ICT-подход позволяет получить лучшее reasoning при меньших вычислительных затратах на обучение. Меньше шагов до того же качества — это прямая экономия облачных ресурсов.

Корпорация или госсектор с ограниченной инфраструктурой. Банки, регуляторы, государственные структуры в КР часто работают с небольшими локальными моделями из-за требований к суверенитету данных. ICT показывает, что Qwen2.5-0.5B можно существенно улучшить стандартным RLVR — эта модель работает даже на слабом железе, а прирост reasoning делает её применимой к задачам, где раньше нужна была модель в 5-10 раз крупнее.

SMB и локальный бизнес в СНГ, использующий AI-API. Если вы не обучаете модели сами, а пользуетесь API от провайдеров fine-tuned решений — знание о методах обучения помогает выбирать осознаннее. Спрашивайте у провайдера: какой алгоритм обучения reasoning? GRPO без модификаций? Есть ли энтропийный контроль? Это влияет на качество ответов в сложных цепочках логики.

Кейсы в личной жизни

Разработчик, который самостоятельно файнтюнит модели. Попробуйте добавить в свой RLVR-пайплайн мониторинг JS-дивергенции логитов — это уже даёт диагностику: видите энтропийный коллапс до того, как модель деградирует. Когда авторы опубликуют код (статья arXiv 2606.19771), ICT станет пригодным для прямого использования.

Контент-мейкер и AI-исследователь. Эта статья — хороший пример того, как академические работы предвосхищают продуктовые обновления. Claude, GPT и Qwen улучшаются частично именно через такие методы оптимизации обучения. Следить за arXiv cs.AI — это не для учёных, а для тех, кто хочет понимать, почему следующая версия модели думает лучше предыдущей.

Студент или ML-практик. Статья вводит конкретный математический инструментарий: разница между Shannon entropy и Rényi entropy второго порядка, JS-дивергенция как метрика для отбора токенов. Это не просто теория — это паттерны, которые пригодятся при проектировании собственных обучающих пайплайнов под нишевые задачи.

Как применить сегодня

Прочитать оригинальную статью на arXiv (2606.19771) — метод математически строгий, но изложен доступно даже без глубокого погружения в теорию информации
Если работаете с GRPO или любым RLVR-пайплайном — начните логировать JS-дивергенцию между логитами: это даст раннюю диагностику энтропийного коллапса
При выборе базовой модели для файнтюнинга учитывать Qwen2.5 — она показала устойчивый прирост во всех трёх размерных конфигурациях (0.5B, 1.5B, 7B)
Использовать pass@k вместо простого accuracy при оценке reasoning: эта метрика лучше отражает реальное разнообразие стратегий модели и раньше сигнализирует о коллапсе
Следить за репозиторием авторов — код должен появиться после публикации статьи

#LLM #RLVR #reasoning #Qwen #обучение моделей

← Все статьи