В конце мая 2026 года появилась работа Parallax — новый подход к механизму внимания в трансформерах. Авторы берут локальное линейное внимание (LLA), выбрасывают его per-query солвер и заменяют обученным проектором, а поверх стандартного softmax-внимания добавляют отдельную ветку коррекции ковариации. Результат: арифметическая интенсивность удваивается, перплексия на моделях 0.6B и 1.7B параметров снижается.
Контекст
Внимание — сердце трансформера. Классический softmax-attention масштабируется квадратично по длине последовательности: при удвоении контекста вычисления растут в четыре раза. Это потолок, который ограничивает длину контекста, скорость инференса и стоимость обучения. Поэтому исследователи годами ищут замену или дополнение softmax.
Линейное внимание (linear attention) обещает O(n) сложность вместо O(n²). Но на практике оно теряет качество: приближение, которое делает его быстрым, одновременно стирает тонкие зависимости между токенами. Локальное линейное внимание (LLA) частично решает это, ограничивая окно обзора, но использует аналитический per-query солвер — жёсткую формулу без обучаемых параметров, которая не адаптируется под данные.
Parallax меняет логику: вместо аналитики — обученный проектор. И вместо того чтобы выбирать «softmax или линейное», авторы оставляют softmax и добавляют рядом ветку коррекции ковариации, которая во время обучения учится компенсировать то, что softmax упускает в локальном контексте.
Аналитика
Идея «гибридного» внимания — не новая. Но большинство гибридов просто чередуют слои: один softmax, один линейный, по очереди. Parallax интереснее тем, что коррекция работает внутри одного слоя как параллельная ветка, а не как отдельный блок. Это значит, что модель может динамически решать, насколько полагаться на коррекцию — без жёсткой архитектурной схемы.
Удвоение арифметической интенсивности — важный сигнал. Арифметическая интенсивность (отношение вычислений к объёму пересылаемых данных) напрямую влияет на эффективность GPU: чем выше, тем лучше утилизируется кремний. Это значит, что Parallax не просто «умнее», но и потенциально лучше ложится на современное железо, особенно при инференсе на серверах с высокой пропускной способностью памяти.
Важен и масштаб проверки: 0.6B и 1.7B — это типичные размеры edge-моделей и компактных продуктивных LLM (think: Qwen 1.5B, Phi-2, SmolLM). Если Parallax подтвердит результаты на более крупных моделях, это откроет путь к дешёвым длинноконтекстным архитектурам без радикальной смены парадигмы.
Кейсы применения в бизнесе
B2B-SaaS стартап с RAG-пайплайном. Если вы обрабатываете длинные документы (договоры, отчёты, базы знаний), квадратичная сложность softmax — ваш главный враг по стоимости. Архитектуры, вдохновлённые Parallax, позволят обрабатывать более длинные чанки за тот же бюджет GPU — без потери качества ответа. Следите за репозиториями, когда появятся open-weight модели на этой архитектуре, и тестируйте в RAG-бенчмарке против вашего текущего решения.
Корпорация с legacy-инфраструктурой. Многие крупные компании деплоят self-hosted LLM на локальном железе ради compliance. Компактная модель 1.7B с улучшенным вниманием — хороший кандидат для on-premise-деплоя: меньше памяти, выше утилизация GPU, лучшее качество на длинном контексте. Сценарий: внутренний ассистент для поиска по корпоративной документации.
SMB в Кыргызстане / Центральной Азии. Для небольшой компании, которая хочет запустить AI-ассистента без облачных расходов, модели до 2B параметров — реальная опция. Улучшения в эффективности внимания напрямую снижают требования к железу. Следить за проектами типа llama.cpp и mlx, куда новые архитектуры переносятся относительно быстро после выхода открытых весов.
Кейсы в личной жизни
Разработчик. Если вы работаете с трансформерами или пишете custom attention-слои, Parallax — хороший референс для понимания компромисса «точность vs. скорость». Стоит прочитать оригинальный arXiv-препринт и посмотреть на реализацию проектора: это паттерн, который можно адаптировать в своих экспериментах.
Контент-мейкер и исследователь AI. Тема гибридного внимания — горячая в 2026 году. Если вы пишете про LLM-архитектуры, Parallax даёт конкретный пример того, как академическое сообщество движется от «выбери одно» к «совмести оба». Хорошая основа для обзорного материала или YouTube-видео про эволюцию трансформеров.
Студент или ML-инженер на старте. Статья про Parallax — отличный повод разобраться в том, что такое арифметическая интенсивность, почему перплексия — это метрика качества языковой модели, и зачем вообще нужны альтернативы softmax. Понять эти три концепции = понять 80% дискуссий про эффективные LLM.
Как применить сегодня
- Найти препринт Parallax на arXiv по ключевым словам «Parallax local linear attention covariance correction» — прочитать секцию с архитектурой и таблицы перплексии.
- Если вы используете RAG с длинными документами — зафиксируйте текущий бюджет GPU и baseline-перплексию вашей модели. Это позволит сравнивать, когда появятся open-weight модели на гибридных архитектурах.
- Подпишитесь на HuggingFace Papers и фильтр «attention» — новые архитектуры появляются как open-source в среднем через 1-3 месяца после препринта.
- Если интересует edge-деплой: протестируйте Qwen2.5-1.5B или SmolLM2-1.7B на вашем железе прямо сейчас — это реперные модели того же масштаба, с которым работали авторы Parallax.
- Для команд, строящих AI-продукты: внесите «гибридное внимание» в технический радар как технологию для наблюдения — не внедрять сейчас, но следить за зрелостью в течение 2026 года.