2026-06-07 04:01 · 🤖 AI World

Четыре разных LLM в одном агентном совете — и это работает

Разработчик построил экономическую симуляцию, где каждый агент думает на модели от разного вендора — OpenAI, NVIDIA, OpenBMB и Qwen. Главный вывод: разнородность агентов создаёт настоящую экономику, а не разыгранный скрипт.

Thousand Token Wood v2 — не просто демо мульти-агентных систем. Это игра: ты теневой финансист, даёшь займы под процент, сливаешь инсайд (настоящий или поддельный), шортишь рынок, подкупаешь и заключаешь союзы. За тобой охотится магистрат. Агенты тебя помнят и плетут схемы в ответ. А под капотом — четыре разных малых модели от разных лабораторий: gpt-oss-20b (OpenAI), MiniCPM3-4B (OpenBMB), Nemotron-Mini-4B (NVIDIA) и дообученный Qwen 0.5B.

Контекст

Первая версия была наблюдательным экспериментом: пять лесных существ торгуют товарами на одной файн-тюненой модели 0.5B, игрок бросает «шоки» в систему и смотрит на пузыри и обвалы. Красиво, но пассивно. v2 переделала это в игру с агентством: ты — Покровитель Леса, теневой финансист с реальными инструментами манипуляции. Автор опубликовал полный разбор архитектурных решений на HuggingFace как field report хакатона Build Small.

Выбор малых моделей — осознанный. Рынок интересен тогда, когда участники по-настоящему отличаются. Четыре лаборатории с разными данными и разным post-training дают максимально непохожих агентов среди малых моделей. Сова накапливает иначе, чем лиса спекулирует. Это живой спор, а не постановка.

Важная деталь инфраструктуры: все четыре модели обслуживаются через vLLM. gpt-oss-20b работает в нативном MXFP4-квантовании и помещается на 24GB L4 GPU. Главная точка боли оказалась не в архитектурах моделей, а на слое сервинга: vLLM 0.22.1 JIT-компилирует ядра при загрузке и требует nvcc, которого нет в лёгких базовых образах — все четыре модели падали с одной и той же ошибкой, пока автор не переключился на CUDA devel образ.

Аналитика

Три инженерных решения v2 стоят отдельного разбора. Первое — толерантный JSON parse-and-repair слой. Разные токенизаторы и форматирование дают разные сбои на выходе; слой исправляет что может и выбрасывает остальное. Симуляция никогда не падает. Это единственная точка абстракции, которая делает добавление новой модели изменением конфига, а не рефакторингом кода.

Второе — файрвол информационной асимметрии. Инсайд (настоящий прогноз или дезинформация) не должен попасть в промпт существа — иначе малая модель его воспроизведёт. Секретный флаг живёт полностью вне промптов, в реестре игрока, и вырезается из публичной хроники событий. Автоматический тест каждый ход сканирует полный промпт каждого существа на наличие запрещённых токенов. Этот тест назван «самым важным в наборе» — и справедливо: если дал агенту секрет, считай что он утечёт, пока тест не докажет обратное.

Третье — ограниченная память. Агенты помнят отношения: числовой сентимент к игроку и друг к другу, который меняется от событий. Но история не попадает в промпт напрямую — модель видит однострочную bucket-summary («ты тепло относишься к Ооне, настороженно к Покровителю»), ограниченную несколькими сильнейшими чувствами. Это предотвращает раздувание контекста, которое убивает малые модели.

Кейсы применения в бизнесе

B2B-SaaS стартап с агентным пайплайном. Если у вас уже есть несколько агентов на одной модели — попробуйте заменить одного-двух на модели от других вендоров. Разнородность мышления снижает системные слепые пятна: один агент не «посоветует» то же самое что другой просто потому что они думают одинаково. Точка входа: единый JSON-parsing слой + конфиг на модель. Неделя эксперимента.

Корпорация с legacy и compliance-требованиями. Архитектура «файрвола информации» применима напрямую к задачам с разными уровнями доступа. Агент видит только то, что ему положено по роли — и это не промпт-инструкция («не говори об X»), а структурное свойство data flow. Аудит: один тест, один скан промптов на наличие запрещённых токенов.

SMB / локальный бизнес в КР и СНГ. Малые модели (4B параметров) запускаются на потребительских GPU или через дешёвый inference API. Сценарий: агент-аналитик поставщиков (Qwen), агент-переговорщик (MiniCPM), агент-ревьюер договоров (Nemotron). Три разных «характера», один управляющий слой. Бюджет — значительно ниже GPT-4 класса.

Кейсы в личной жизни

Разработчик, строящий агентную систему. Вынесите JSON-repair слой в отдельную утилиту с первого дня. Это не оптимизация — это фундамент. Без него каждая новая модель ломает пайплайн по-своему и требует отдельного патча.

Контент-мейкер или аналитик. Запустите двух агентов на разных малых моделях с одним и тем же вопросом. Сравните ответы — не ради «правильного», а ради точки расхождения. Там обычно самое интересное: разные приоритеты, разный акцент.

Студент или исследователь AI. Thousand Token Wood — открытый проект с полными трейсами агентных сессий. Это редкий учебный материал: видно не только что модель ответила, но и весь контекст, который она видела. Разбор одного трейса даёт больше понимания агентных систем, чем большинство туториалов.

«Малая модель — надёжный генератор форматов и ненадёжный рассуждатель. Разрыв закрывается структурой, промптингом и небольшим файн-тюном — не масштабом.»

Как применить сегодня

Реализуйте толерантный JSON-парсер с авторемонтом как первый слой любого мульти-агентного пайплайна — до того, как добавите вторую модель.
Если агент должен «не знать» что-то — это структурная задача data flow, а не промпт-инструкция. Напишите автотест, который сканирует промпт на наличие секретных токенов каждый ход.
Храните агентную память как числовой сентимент + однострочный bucket-summary в промпте; сырую историю — в трейсах вне промпта. Контекст не раздуется.
Для старта с гетерогенным советом: возьмите Qwen 0.5B (дообучаемый, лёгкий) + один из 4B вендорских вариантов через OpenAI-совместимый API. Один serving образ с CUDA devel основой.
Изучите открытые трейсы Thousand Token Wood на HuggingFace — это практический шаблон мульти-агентной архитектуры с реальными промптами.

#мультиагенты #small models #LLM #агентная архитектура #Qwen

← Все статьи