2026-05-16 02:02 · 🌐 СНГ (tech/AI)

Edge-чип без GPU: AX650N запускает YOLO, LLM и depth estimation параллельно

Axera AX650N — китайский SoC с NPU на 10.8 реальных TOPS@INT8, без GPU и без облака. Один чип тянет три нейросети одновременно — детекцию объектов, оценку глубины и ключевые точки — каждую на своём виртуальном ядре.

Китайский SoC Axera AX650N — восемь ядер Cortex-A55, NPU Axera Neutron на 10.8 TOPS@INT8 (маркетинговые 18 TOPS суммируют несколько подсистем сразу), двойной DDR-контроллер с теоретической пропускной способностью до 34 GB/s и никакого GPU. Тестирование на плате Sipeed Maix4 Hat показало: один чип параллельно тянет YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3 — каждый на своём vNPU, без конкуренции за ресурсы.

Контекст

Рынок edge-ML ускорителей делится на три практических класса. NVIDIA Jetson — единственная массовая платформа с универсальными CUDA-ядрами: гибкая, хорошо документированная, но дорогая. Внешние ускорители вроде Hailo подключаются по PCIe к хост-компьютеру и берут на себя инференс. Третий класс — интегрированные SoC с NPU, обычно китайского производства: дешевле, компактнее, но с проприетарным стеком.

AX650N от Axera — один из наиболее изученных представителей третьего класса. В тестах использовался Sipeed Maix4 Hat — плата формата HAT для Raspberry Pi 5, подключающаяся по PCIe 2.0 и работающая как внешний ML-ускоритель. Полноценный вариант — M4N Dock — добавляет Ethernet, PCIe и два четырёхлейновых MIPI CSI для камер, стоит порядка 45 000 рублей.

Архитектурно AX650N сделан без GPU намеренно: всё, что обычно ложится на GPU, делят NPU Neutron, двойной DSP на ядрах Tensilica Vision Q7 и аппаратный AI-ISP. Это снижает энергопотребление и стоимость — но делает чип непрозрачным: низкоуровневые драйверы и SDK остаются проприетарными.

Аналитика

10.8 TOPS — не рекордная цифра, но архитектура интереснее, чем кажется. NPU состоит из 13 исполнительных блоков (EU), разбитых на три vNPU: каждый содержит 2 Convolution EU, 1 Tensor EU и 1 SDMA. В vNPU-режиме три модели выполняются параллельно без конкуренции за EU. Это принципиально для агентных робосистем — один чип одновременно детектирует объекты, оценивает глубину и находит ключевые точки.

Поддержка INT4 реализована аппаратно: два INT4-перемножения за один такт, ускорение в 4 раза относительно INT8 (43.2 vs 10.8 TOPS). Для визуальных CNN это избыточно, зато LLM-веса активно квантуют именно в INT4 — AX650N потенциально способен работать как локальный инференс-движок для небольших языковых моделей. Qwen3 уже запущен на этом чипе в режиме тестирования.

Ключевой риск — экосистема. Конвертация через Pulsar 2 покрывает стандартные ONNX-операции хорошо, но нестандартные слои потребуют ручной работы. Dual DDR с раздельными адресными пространствами (DDR0 и DDR1 по ~17 GB/s каждый) позволяет NPU, DSP, ISP и CPU работать параллельно без конкуренции за шину — грамотное архитектурное решение для реального многозадачного vision-пайплайна.

Кейсы применения в бизнесе

B2B-стартап в робототехнике. Строите автономного промышленного робота или AGV? AX650N позволяет запустить полный vision-стек локально — YOLO для детекции препятствий, Depth Anything для карты глубины, SuperPoint для локализации — на одном чипе, без облака. Три vNPU покрывают три параллельных задачи без переключения контекста и без дорогого Jetson Orin.

Корпорация с legacy-видеонаблюдением. AX650N поддерживает до 32 потоков 1080p@30fps параллельно с кодированием H.264/H.265. Сценарий — замена NVR с AI-постпроцессингом прямо в edge-узле: детекция лиц, анализ поведения, GMM-фон для детектора движения. AI-ISP с нейросетевым шумоподавлением и HDR-компоновкой снижает требования к качеству камер.

SMB или локальный бизнес в КР/СНГ. Чип не подпадает под западные ограничения на поставку Jetson — это практический аргумент для производств, агропредприятий и складов. Стоимость Sipeed Maix4 Hat существенно ниже Jetson Orin, при этом для задач классификации продукции, подсчёта объектов или контроля качества мощности NPU достаточно.

Кейсы в личной жизни

Разработчик робота-хобби. Maix4 Hat подключается к Raspberry Pi 5 по PCIe и превращается во внешний ML-ускоритель — аналог Hailo, но дешевле. YOLO на 30+ FPS без нагрузки на CPU Pi. Для DIY-дронов или компактных мобильных роботов — энергоэффективный и компактный вариант.

Исследователь или студент. AX650N — редкая возможность изучить архитектуру промышленного NPU изнутри. Трейсы Pulsar 2, дебаг через sysfs, разбор карты адресов — реальная работа с аппаратным уровнем, которую обычно скрывают за облачными API. Полезно для понимания квантования, оптимизации ONNX-графов и edge deployment.

Контент-мейкер в нише robotics/AI. Сравнительные тесты edge-чипов — горячая ниша на YouTube и профессиональных площадках. AX650N против Jetson, против Hailo-8, против RK3588 — контент, который ищут сотни разработчиков. Запуск Qwen3 на edge-чипе отдельно зайдёт AI-аудитории.

Как применить сегодня

Рассмотреть Sipeed Maix4 Hat как стартовую edge-платформу: существенно дешевле Jetson Orin, подключается к Raspberry Pi 5 по PCIe, работает как standalone или как внешний ускоритель.
Освоить Pulsar 2 — инструмент Axera для конвертации ONNX-моделей. Поддерживает ONNX версии 11, смешанное квантование INT4/INT8/FP16 между слоями.
Для параллельного инференса использовать vNPU-режим: три модели на трёх vNPU без конкуренции за EU-ресурсы. Главное узкое место в этом режиме — OCM (11 MB) и DDR bandwidth, делящиеся между тремя моделями.
Для LLM на edge тестировать INT4-квантованные модели — аппаратная поддержка INT4 даёт реальный прирост в 4x относительно INT8, это не маркетинг.
При выборе форм-фактора: HAT — для интеграции с Pi 5 и компактных проектов, M4N Dock — для standalone-устройств с камерами и сетью.

#edge ML #NPU #robotics #квантование #LLM inference

← Все статьи