2026-05-23 22:03 · 🤖 AI World

0,1% нейронов LLM управляют всеми отказами — находка Nous Research

Nous Research выяснила, какие именно нейроны отвечают за отказы instruct-моделей — и научилась их адресно отключать без дообучения и без изменения весов. Всего 0,1% MLP-активаций держат под контролем весь refusal-механизм.

Nous Research опубликовала метод Contrastive Neuron Attribution (CNA) — инструмент для точечного управления поведением language models без дообучения и без изменения весов. Ablate-удаление 0,1% MLP-активаций снизило refusal rate больше чем на 50% в большинстве протестированных instruct-моделей. При этом MMLU-точность не вышла за один процентный пункт от базового уровня, а качество генерации (метрика повторяющихся n-gram) осталось выше 0,97 на всех уровнях вмешательства.

Контекст

Instruct-версии LLM — Llama, Qwen и другие — отказывают на вредных запросах благодаря alignment fine-tuning: RLHF, instruction tuning, DPO. Долгое время было неясно, что именно формирует этот механизм: новые структуры в сети или трансформация уже существующих. Предыдущие методы управления поведением делились на два класса. Contrastive Activation Addition (CAA) работает с residual stream целого слоя — эффективно, но грубо: при высоком уровне вмешательства MMLU падает до нуля, вывод деградирует в бессвязный текст. Sparse autoencoders (SAE) дают интерпретируемость, но требуют отдельного дорогостоящего внешнего обучения.

CNA — третий путь. Только forward pass, никаких градиентов, никакого дополнительного обучения. Нужны два набора промптов (вредные / безопасные) и доступ к MLP down-projection активациям через хуки. Метод протестирован на 16 моделях: Llama 3.1/3.2 и Qwen 2.5 в диапазоне от 1B до 72B параметров. Основной бенчмарк — JBB-Behaviors (NeurIPS 2024), 100 вредных промптов.

Аналитика

Главная находка: дискриминационная структура поздних слоёв существует в base-моделях до любого fine-tuning. Это не продукт RLHF — архитектурная черта, унаследованная от pretraining. В Llama-3.2-1B 87% из топ-200 нейронов-дискриминаторов находятся в последних трёх слоях (L13–L15). В Qwen2.5-3B — 95% в последней четверти сети. Fine-tuning не создаёт новые структуры. Он переключает функцию уже существующих нейронов.

Числа это подтверждают: перекрытие конкретных нейронов между base- и instruct-версиями одной модели — всего 8–29%. Fine-tuning буквально «перепрошивает» нейроны внутри той же поздней зоны, сохраняя слоевую топологию. Safety-механизм — не диффузная характеристика всей сети, а sparse and targetable refusal gate. Именно поэтому jailbreak-атаки работают: они обходят этот узкий gate, не затрагивая остальную модель.

По результатам StrongREJECT-рубрики (LLM-судья на базе Llama-3.3-70B) compliance-оценки Qwen-моделей после CNA-ablation улучшились в среднем на 31%, Llama-моделей — на 6%. Для сравнения: CAA на максимальной мощности деградировал вывод шести из восьми instruct-моделей до уровня ниже порога читаемости — ключевой классификатор фиксировал деградированный текст как отказ, что искажало итоговый refusal rate вверх.

«Alignment fine-tuning does not create new structure. It transforms the function of neurons within that existing structure into a sparse, targetable refusal gate» — Nous Research

Кейсы применения в бизнесе

B2B-SaaS стартап с AI-ассистентом. Если продакшн-модель неожиданно отказывает на безопасных запросах (ложные срабатывания), CNA позволяет локализовать проблему за часы — без нового цикла переобучения. Достаточно 8–16 контрастных примеров, чтобы получить карту нейронов и проверить причинность через scalar multiplier. Это в разы быстрее, чем запускать fine-tuning наугад и ждать результата.

Корпорация с enterprise LLM fine-tuning. Зная, что alignment сосредоточен в поздних слоях и меняет нейроны внутри уже существующей структуры, ML-команда может планировать дообучение точнее — прицельно работать с последними 10% слоёв, применять разные learning rate по зонам сети, не трогать слои, не связанные с поведением.

SMB и локальный бизнес в КР/СНГ с open-source моделью (требование data residency или бюджетные ограничения). Qwen2.5 или Llama 3, развёрнутые локально, получают инструмент аудита safety-поведения без зависимости от внешних API. CNA запускается полностью на своём железе: нужен только forward pass через модель, никаких внешних вызовов.

Кейсы в личной жизни

ML-разработчик, который тонко настраивает open-source модель под конкретную задачу: после fine-tuning запустить CNA на 100 примерах и получить карту нейронных цепочек — понять, почему модель ведёт себя именно так, ещё до следующей итерации обучения. Экономит циклы экспериментов и GPU-время.

AI-исследователь или студент: CNA применима не только к safety. Любая контрастная пара промптов — стиль A vs стиль B, формальный vs разговорный, технический vs простой — даёт карту нейронов, ответственных за конкретное поведение. Широкое поле для interpretability-экспериментов без дорогого обучающего пайплайна.

Независимый AI-консультант: умение объяснить клиенту не «модель так обучена», а «вот конкретные индексы слоёв и нейронов, ответственных за это поведение» — конкурентное преимущество при аудите LLM-систем. CNA даёт артефакт с конкретными (layer, neuron) парами, а не абстрактное описание.

Как применить сегодня

Найти репозиторий CNA от Nous Research на GitHub — paper и repo опубликованы открыто.
Взять instruct-версию Llama 3.1/3.2 или Qwen2.5 и зарегистрировать forward-hooks на down_proj слоях MLP (один хук на слой, записываем активации последнего токена).
Подготовить минимум 8 примеров целевого поведения и 8 противоположных — для production-оценки лучше 100 + 100.
Вычислить δ = mean(pos) − mean(neg) по каждому нейрону в каждом слое, взять top-0.1% по абсолютному значению, отфильтровать «универсальные» нейроны (активируются в 80%+ разнородных промптов).
Проверить причинность: умножить активации найденных нейронов на m=0 при инференсе и сравнить вывод с baseline — если поведение изменилось, цепочка нейронов найдена верно.

#interpretability #LLM #безопасность AI #Nous Research #MLP

← Все статьи