← Все статьи
2026-05-25 12:02 · 🤖 AI World

BOHM: кто в составной AI-системе реально тянет и как это узнать

Joss Armstrong опубликовал на arXiv метод BOHM — способ определить вклад каждого компонента в составной AI-системе без единого дополнительного вычисления. Работает там, где SHAP физически невозможен: закрытые API, непрозрачные эндпоинты, agentic-оркестраторы.

BOHM: кто в составной AI-системе реально тянет и как это узнать

Исследователь Joss Armstrong представил BOHM — метод иерархической атрибуции для составных AI-систем с нулевой маргинальной стоимостью. Идея проста: вместо того чтобы гонять систему по тысячам подмножеств компонентов (как это делает SHAP), BOHM извлекает дерево атрибуции прямо из весов маршрутизации, которые система уже хранит внутри себя. Атрибуция листа — это произведение весов по пути от корня до него. Атрибуция уровня k — индуцированное распределение по узлам глубины k. Статья вышла на arXiv 19 мая 2026 года.

Контекст

Составные AI-системы сегодня — норма, не экзотика. Задача не решается одной моделью: запрос проходит через иерархию компонентов — классификатор маршрутизирует, retriever ищет, генератор отвечает, верификатор проверяет. Именно так устроены production-grade RAG-конвейеры, мультиагентные фреймворки и современные agentic-оркестраторы.

Доминирующий способ понять, кто из компонентов «виноват» в результате — методы на основе значений Шепли (SHAP). Они математически строги, но требуют оценивать систему на произвольных подмножествах компонентов. Для 10 компонентов это потенциально 1 024 прогона. А для систем, где часть компонентов — закрытые сторонние API или жёсткие маршрутизаторы, которые не позволяют произвольно «выключить» компонент — SHAP вообще неприменим технически.

BOHM предлагает иной угол: не «что было бы без компонента X», а «куда маршрутизатор направляет трафик». Это другой вопрос — и именно поэтому методы не конкурируют, а дополняют друг друга.

Аналитика

Статья тестировала BOHM на трёх наборах данных. На 18 LLM в трёхуровневой иерархии по 880 задачам LiveCodeBench: BOHM получил корреляцию Кендалла tau=0.928. SHAP достиг tau=0.980 — но ценой 9 000-кратного увеличения числа оценок коалиций. Это принципиальный компромисс: потеря ~5% точности при радикальном снижении затрат.

Агентное исследование на 5 драйверах и 7 бенчмарках (35 ячеек, полное покрытие) выявило важный паттерн: реальные agentic-системы концентрируют маршрутизацию на одном инструменте — медиана доли топ-инструмента составила 0.65. Это означает, что большинство агентов не используют свой инструментальный арсенал равномерно. BOHM работает лучше всего именно в таких условиях: когда маршрутизация предсказуема, расхождение с SHAP минимально. На иерархии переписи США (475 листьев, 4 уровня) BOHM восстановил правильные рейтинги на каждом уровне с tau до 0.722.

Авторский вывод честен: BOHM не заменяет SHAP, а дополняет. Расхождение между ними — само по себе диагностический сигнал. Большая дельта означает, что маршрутизатор работает субоптимально: он не направляет задачи к лучшим компонентам. Это практически полезная метрика для отладки составных систем.

Кейсы применения в бизнесе

B2B-SaaS стартап с RAG-системой. Типичная конфигурация: оркестратор + поисковый индекс + несколько внешних API. BOHM позволяет без изменений в инфраструктуре понять, какой инструмент занимает 65% маршрутизации, а какой подключён, но почти не используется. Сценарий: убрать или удешевить неиспользуемые компоненты, усилить перегруженные — без дорогостоящей серии A/B-тестов.

Корпорация с legacy-инфраструктурой. Когда часть компонентов — закрытые внутренние сервисы без документации, SHAP технически невозможен. BOHM требует только весов маршрутизации — их можно залоггировать без доступа к внутренностям компонентов. Это открывает аудит AI-систем даже там, где исходники недоступны.

SMB и локальный бизнес в КР и СНГ. Небольшие команды, строящие агентные системы на базе открытых LLM, не имеют ресурсов на дорогостоящие SHAP-оценки. BOHM — это диагностика «прямо из коробки»: если веса маршрутизации уже логируются, анализ можно запустить немедленно и бесплатно.

Кейсы в личной жизни

Разработчик, строящий мультиагентный пайплайн. Используешь LangChain, CrewAI, AutoGen или собственный оркестратор — BOHM-подход можно реализовать за выходные. Достаточно залоггировать, какой агент или инструмент вызывается на каждом шаге, и построить простое дерево. Если один узел получает больше 60% трафика — система залипла на одном компоненте и вероятно не использует весь потенциал.

ML-инженер или исследователь. 35 страниц, 20 таблиц, 10 рисунков — методология описана подробно. Базовый BOHM реализуется через простые матричные операции: дерево маршрутизации + произведение весов вдоль пути. Можно взять за основу при построении собственных систем мониторинга агентных конвейеров.

Продакт-менеджер AI-продукта. Если нужно объяснить стейкхолдерам, почему система отвечает именно так, иерархическая атрибуция BOHM даёт интерпретируемый ответ на каждом уровне — от «какой агент-класс сработал» до «какой конкретный инструмент был вызван» — без погружения в математику Шепли.

Как применить сегодня

  • Найди статью на arXiv по запросу «BOHM hierarchical attribution compound AI Joss Armstrong» — она в открытом доступе.
  • Включи логирование весов маршрутизации в своём оркестраторе: это единственные данные, нужные методу.
  • Построй дерево топологии системы: корень → агенты уровня 1 → инструменты уровня 2. Произведение весов по пути от корня = атрибуция листа.
  • Проверь концентрацию: если медиана доли топ-инструмента превышает 0.6 — система игнорирует большую часть своего арсенала.
  • Используй расхождение BOHM и SHAP как диагностику маршрутизатора: большая дельта = роутер работает субоптимально, есть где копать.
← Все статьи