Команда Trajectory при участии UC Berkeley Sky Lab и Anyscale опубликовала конкурентный multi-LoRA стек для continual learning. Каждый RL-эксперимент получает собственный LoRA-адаптер на always-hot движке — без перезапуска, без очереди. Итог: 2,81× прирост end-to-end experiment throughput при нулевой reward regression. Код открыт в репозитории NovaSky-AI/SkyRL.
Контекст
LoRA (Low-Rank Adaptation) — стандарт дообучения больших моделей с минимальными затратами: вместо полного файн-тюнинга замораживают базовые веса и обучают только маленькие низкоранговые матрицы. Это позволяет держать десятки специализированных «версий» одной модели одновременно. Проблема возникает, когда нужно итерировать быстро: классическая single-tenant схема обслуживает один RL-эксперимент за раз, остальные ждут. При серьёзных исследовательских циклах это узкое место превращается в дни простоя.
Trajectory — команда, фокусирующаяся на агентных системах и RL-тренинге. Партнёрство с Sky Lab (Berkeley) и Anyscale даёт академическую строгость плюс production-grade инфраструктуру. Always-hot движок означает, что базовая модель загружена постоянно, а каждый новый LoRA-адаптер просто монтируется сверху — без cold start.
Continual learning здесь — не просто маркетинговый термин. Речь о способности системы накапливать знания между экспериментами без catastrophic forgetting. Изолированные адаптеры на одном движке — архитектурный ответ на эту задачу.
Аналитика
Цифра 2,81× — это не ускорение самого обучения, а ускорение цикла «запустил эксперимент → получил результат → скорректировал гипотезу». В исследовательской работе это принципиально: десятки параллельных гипотез вместо последовательной очереди. По сути, речь о том, чтобы GPU не простаивал между RL-итерациями.
Для рынка это сигнал: индустрия переходит от «обучи одну модель хорошо» к «итерируй быстро и дёшево». Агентные системы требуют постоянной подстройки под новые задачи — continual learning становится инфраструктурным примитивом, а не исследовательской экзотикой. Открытый код в SkyRL ускоряет этот переход для всего сообщества.
Показательно, что работа пришла из связки стартап + академия + infra-провайдер. Это паттерн 2025–2026: крупные compute-компании (Anyscale) вкладываются в open research, чтобы формировать стандарты инфраструктуры до того, как их зафиксируют конкуренты. SkyRL может стать de facto reference implementation для multi-LoRA RL-тренинга — примерно как vLLM стал стандартом инференса.
Кейсы применения в бизнесе
B2B-SaaS стартап с AI-фичами. Если вы итерируете prompt-политики или fine-tuning для разных клиентских сегментов — multi-LoRA стек позволяет гонять эксперименты параллельно на одном GPU-узле. Вместо «обучили модель для сегмента A, потом для B» — оба адаптера обучаются одновременно. Экономия compute-бюджета при той же скорости поставки фич.
Корпорация с legacy и compliance-требованиями. Несколько бизнес-юнитов хотят свои версии корпоративного ассистента. Базовая модель одна, LoRA-адаптеры изолированы по юниту — данные не смешиваются, но инфраструктура общая. Снижение TCO при соблюдении data governance. Continual learning означает, что адаптер для юнита A дообучается на новых данных, не затрагивая адаптер юнита B.
AI-лаборатория или R&D-команда в КР/СНГ. Ограниченный GPU-бюджет — типичная реальность. Вместо того чтобы гонять эксперименты последовательно на одной карте, SkyRL позволяет параллелить несколько гипотез. Для команд, работающих с локальными языковыми моделями (кыргызский, казахский, узбекский), это означает быстрее находить оптимальные конфигурации дообучения.
Кейсы в личной жизни
Разработчик, занимающийся fine-tuning. Если вы дообучаете модели для pet-проектов или фриланса — посмотрите на архитектуру SkyRL даже без полного деплоя. Паттерн always-hot engine + монтируемые адаптеры применим локально: держите базовую модель загруженной, переключайтесь между задачами без перезагрузки. Субъективно ускоряет workflow на RTX 3090/4090.
Исследователь или аспирант в области ML. SkyRL — готовая база для экспериментов с RL-тренингом и continual learning. Открытый код от Berkeley + Anyscale — это не учебный пример, а production-grade реализация. Форкнуть и адаптировать под свою задачу быстрее, чем писать с нуля.
Контент-мейкер или консультант по AI. Тема multi-LoRA и continual learning набирает вес в корпоративных запросах. Разобраться сейчас — значит через полгода объяснять клиентам, почему их AI-система «забывает» старые задачи при дообучении, и предлагать конкретное решение вместо общих слов.
Как применить сегодня
- Открыть репозиторий NovaSky-AI/SkyRL на GitHub — там README с архитектурой и примерами запуска.
- Если у вас уже есть пайплайн fine-tuning на базе vLLM или Ray (Anyscale) — изучить, как SkyRL интегрируется: always-hot engine строится поверх совместимых serving-фреймворков.
- Для команд с несколькими AI-продуктами: составить список активных LoRA-экспериментов и оценить, сколько GPU-часов теряется на sequential queuing. Это ваш потенциальный ROI от multi-LoRA схемы.
- Следить за Sky Lab (Berkeley) и Anyscale engineering blog — SkyRL, судя по всему, будет развиваться как открытая платформа, и ранние адопторы получат преимущество в знании архитектурных решений.