0,1% нейронов LLM управляют всеми отказами — находка Nous Research
Nous Research выяснила, какие именно нейроны отвечают за отказы instruct-моделей — и научилась их адресно отключать без дообучения и без изменения весов. Всего 0,1% MLP-активаций держат под контролем весь refusal-механизм.