#fine-tuning

Публикаций: 6

SafeGene: безопасность LLM как переиспользуемый модуль, а не костыль

Когда open-weight модель дообучают под задачу, она теряет защиту от вредоносных запросов — даже если обучающие данные были безвредными. Исследователи предложили SafeGene: адаптер безопасности, который не нужно пересоздавать каждый раз.

Малые LLM не слабее — они просто забывают редкие задачи из-за частых

Исследователи нашли конкретный механизм, объясняющий, почему большие языковые модели умеют то, что маленьким не даётся. Оказалось, дело не в размере как таковом — а в том, как частые задачи вытесняют редкие из памяти модели.

Обучение LLM в 2,81× быстрее: Trajectory открыла multi-LoRA стек для continual learning

Trajectory совместно с UC Berkeley Sky Lab и Anyscale выпустила открытый стек для параллельного обучения множества LoRA-адаптеров. Прирост пропускной способности — 2,81× по сравнению с однопоточным baseline, без потерь в качестве награды.

Мультимодальный RLVR: строим пайплайн обучения с подкреплением для vision-LLM

Датасет Open-MM-RL от TuringEnterprises превращает обучение с подкреплением для мультимодальных моделей из исследовательской абстракции в практический пайплайн. Разбираем полный цикл: от загрузки датасета и анализа распределений до reward-функции с LaTeX-парсингом и экспорта в GRPO-формат.

7B-модель читает документы лучше гигантов — метод ByteDance

ByteDance Seed установили: если учить мультимодальную модель отвечать на вопросы по документу вместо того, чтобы просто переписывать текст, — 7B-параметровая модель начинает стабильно обходить значительно более крупные системы. Даже на документах в 4 раза длиннее обучающей выборки.

Компактная Gemma-3 в роботе: 270М параметров управляют гусеницей и клешнёй

Разработчик с Хабра зафайнтюнил Gemma-3 270M от Google под управление гусеничным роботом с манипулятором в симуляторе MuJoCo — модель переводит текстовые команды в JSON-инструкции для актуаторов. Весь стек умещается на Raspberry Pi Zero 2 W и обучается бесплатно на Kaggle.

← Все статьи