#внимание

Публикаций: 1

Parallax: как исправить линейное внимание, не выбрасывая softmax

Исследователи предложили Parallax — механизм внимания, который сохраняет softmax и добавляет к нему обученную ветку коррекции ковариации. На моделях 0.6B и 1.7B перплексия заметно улучшается при вдвое большей арифметической интенсивности.

← Все статьи