2026-05-24 02:01 · 🤖 AI World

Tencent открыл память для AI-агентов: 4 уровня вместо плоского векторного хранилища

Tencent выложила в open source систему памяти для AI-агентов под MIT-лицензией. Вместо flat vector store — четырёхуровневая пирамида с символьным сжатием контекста и локальным SQLite без внешних API.

Tencent опубликовала TencentDB Agent Memory — систему памяти для долгоживущих AI-агентов под MIT-лицензией. Проект работает полностью локально на SQLite с расширением sqlite-vec, не требует внешних API и интегрируется как плагин в OpenClaw или через Gateway-адаптер в Hermes Agent. По данным Tencent, на бенчмарке WideSearch интеграция поднимает pass rate с 33% до 50% и срезает потребление токенов на 61%.

Контекст

Главная беда длинных агентных задач — контекстное переполнение и деградация recall. Большинство нынешних memory-стеков режут диалог на фрагменты и сваливают в плоский векторный индекс. Поиск превращается в blind similarity search без структурного ориентира: агент вспоминает что-то похожее, но не то, что нужно.

Tencent подошла к проблеме через две идеи: иерархическое хранение вместо плоского и символьная компрессия короткой памяти. Результат — четырёхуровневая архитектура, где верхние слои несут структуру, нижние — доказательства. Система написана под экосистему OpenClaw/Hermes, которая в последние месяцы набирает популярность среди разработчиков агентов как open-source альтернатива проприетарным оркестраторам.

Проект выходит в момент, когда индустрия осознаёт: проблема агентов — не генерация, а состояние. Кто решит memory грамотно, получит инфраструктурное преимущество. Tencent делает ставку на то, что открытое MIT-решение с локальным бэкендом перетянет разработчиков, которым не нужна облачная зависимость.

Аналитика

Четырёхуровневая пирамида — L0 Conversation → L1 Atom → L2 Scenario → L3 Persona — это попытка воспроизвести то, как работает человеческая память: сырые события снизу, обобщённый профиль сверху. Запрос начинается с Persona, и только при нехватке точности система идёт глубже. Это снижает токены при recall, потому что в большинстве случаев достаточно верхнего слоя.

Символьная компрессия через Mermaid-граф — нетривиальное решение. Verbose tool logs (код, трейсы ошибок, поисковые результаты) выносятся в файлы refs/*.md, а в контекст попадает только компактный граф состояний. Агент грепает node_id и подтягивает raw text по требованию. Это детерминированный drill-down вместо вероятностного recall — и именно здесь объясняется 61-процентное падение токенов на WideSearch.

Важная оговорка: все цифры — из внутренних оценок Tencent, независимых воспроизведений пока нет. Но даже при скидке на self-reported bias направление убедительное. PersonaMem accuracy с 48% до 76% — это принципиальный сдвиг для персонализированных агентов. Гибридный retrieval (BM25 + vector + RRF) с поддержкой китайского jieba и английского токенизатора говорит о том, что проект проектировался не только для западного рынка.

Кейсы применения в бизнесе

B2B-SaaS стартап, строящий AI-ассистента для клиентов: подключить TencentDB Agent Memory как плагин OpenClaw, настроить L3 Persona на профиль каждого пользователя. Агент будет помнить предпочтения, рабочий контекст, прошлые решения — без RAG по всей базе при каждом запросе. Снижение токенов означает прямое снижение затрат на инференс при масштабе.

Корпорация с legacy-системами и долгими workflow: самый болезненный кейс — агент, который ведёт сложный процесс (тендер, онбординг клиента, аудит) через десятки шагов. Сейчас контекст разбухает и агент «забывает» детали из начала сессии. L2 Scenario как раз для этого: сцена сохраняет все шаги процесса структурированно, агент не тащит весь лог в окно.

SMB или локальный бизнес в КР/СНГ: локальный SQLite-бэкенд без внешних API — это compliance-friendly решение. Данные о клиентах и переговорах не уходят на сторонние серверы. Для компаний, которые работают с персональными данными под Цифровым кодексом КР или аналогичными нормами, это аргумент в пользу именно этого стека.

Кейсы в личной жизни

Разработчик, работающий с долгими coding-сессиями: SWE-bench показывает рост с 58.4% до 64.2% при 50 последовательных задачах. Установить OpenClaw + плагин за npm install одной командой, включить Mermaid offloading — и агент перестанет «терять нить» при отладке многофайлового проекта.

Контент-мейкер или исследователь с тематическими проектами: L3 Persona накапливает предпочтения по стилю, источникам, форматам. Вместо того чтобы каждый раз объяснять агенту контекст с нуля, он вспоминает тебя сам. Через 50+ сессий агент знает, что ты предпочитаешь короткие тезисы, ссылки на arXiv и избегаешь маркетинговых формулировок.

Фрилансер или студент, ведущий несколько параллельных проектов: L2 Scenario позволяет хранить контекст каждого проекта отдельно. Переключился между клиентами — агент подтягивает нужный сценарий, не мешает контексты. Это то, чего не хватает большинству стандартных chatbot-интерфейсов.

Как применить сегодня

Установить плагин: openclaw plugins install @tencentdb-agent-memory/memory-tencentdb (требуется Node.js 22.16+). Включить одной строкой в ~/.openclaw/openclaw.json.
Для Docker-деплоя с Hermes: docker build -f Dockerfile.hermes -t hermes-memory . — в контейнере уже есть агент, плагин и TDAI Memory Gateway. Модель по умолчанию — DeepSeek-V3.2, но работает любой OpenAI-compatible endpoint.
Включить Mermaid offloading для долгих задач (v0.3.4+): добавить "offload": {"enabled": true} в конфиг плагина и зарегистрировать contextEngine slot.
Проверить recall через инструменты агента: tdai_memory_search ищет по L1–L3, tdai_conversation_search — по сырому L0 диалогу. Оба возвращают node_id для drill-down.
Для production без внешних зависимостей — оставить SQLite. Для масштаба — подключить Tencent Cloud Vector Database через MODEL_PROVIDER=custom.

«Верхние слои несут структуру, нижние — доказательства» — так Tencent описывает принцип пирамиды. Это ближе к тому, как работает человеческая память, чем любой плоский векторный индекс.

#AI-агенты #память агентов #Tencent #open source #инфраструктура

← Все статьи