#linear attention

Публикаций: 2

Parallax: как исправить линейное внимание, не выбрасывая softmax

Исследователи предложили Parallax — механизм внимания, который сохраняет softmax и добавляет к нему обученную ветку коррекции ковариации. На моделях 0.6B и 1.7B перплексия заметно улучшается при вдвое большей арифметической интенсивности.

NVIDIA улучшила память LLM без роста затрат на контекст

NVIDIA выпустила Gated DeltaNet-2 — рекуррентный слой линейного внимания, который разделяет операции стирания и записи в сжатой памяти на два независимых канальных гейта. На 1.3B параметрах и 100B токенах модель обходит Mamba-2, Gated DeltaNet, KDA и Mamba-3 по всем ключевым бенчмаркам.

← Все статьи