Parallax: как исправить линейное внимание, не выбрасывая softmax
Исследователи предложили Parallax — механизм внимания, который сохраняет softmax и добавляет к нему обученную ветку коррекции ковариации. На моделях 0.6B и 1.7B перплексия заметно улучшается при вдвое большей арифметической интенсивности.