2026-06-11 18:03 · 🤖 AI World

Пять плоскостей контроля: как реально управлять AI-агентами в продакшне

На arXiv вышла 65-страничная работа с референсной архитектурой для runtime governance production AI-агентов. Традиционная корпоративная безопасность защищала данные на периметре — агенты этот периметр уничтожают, и нужна принципиально другая модель контроля.

Исследователь Крти Таллам опубликовал на arXiv работу с референсной архитектурой управления AI-агентами в рантайме. Центральный тезис: корпоративная безопасность строилась для защиты данных на границах — access control, DLP, perimeter inspection. Агент эту парадигму разрушает: он читает контекст, вызывает инструменты, модифицирует системы учёта от имени компании. Риск перемещается внутрь рабочего процесса — в цепочки индивидуально разрешённых действий, совокупный эффект которых никто явно не авторизовывал.

Контекст

Классические policy engines оценивают атомарный запрос от конкретного принципала: разрешить или заблокировать. Для агентских систем этого недостаточно. Агент — это составной принципал: его полномочия складываются из делегирования от пользователя, системы, сервиса и потенциально sub-агента. Каждое звено цепочки делегирования должно только сужать диапазон допустимых действий — но существующие IAM и RBAC-решения не умеют отслеживать этот stateful-контекст через весь workflow.

Предложенная архитектура строится из четырёх composable primitives. Первый — пятиплоскостная декомпозиция: reasoning plane, которая оценивает намерение и выносит решение, плюс четыре enforcement planes — network, identity, endpoint, data — которые это решение реализуют. Второй — stop-anywhere mediation: возможность прервать агента в любой точке цепочки, а не только на входе. Третий — составные принципалы с capability attenuation: полномочия при передаче только убывают. Четвёртый — аудит как структурированный субстрат доказательств с tamper-evidence свойствами.

Работа включает референс-имплементацию policy-engine core с микробенчмарками. Adjudication (принятие решения) выполняется за единицы микросекунд. Attenuation correctness и evidence reconstructability подтверждены на каждом испытании. Архитектура вводит таксономию из шести interruption primitives, четыре инварианта корректности и демонстрирует закрытие семи классов угроз на пяти конкретных сценариях.

Аналитика

Проблема давно созрела — просто её не формализовывали. Компании деплоят агентов в продакшн в поддержке, финансах, разработке, но security-команды продолжают работать по старой модели. Агент ломает атомарность: одна разрешённая операция ведёт к следующей, потом к третьей — и совокупный эффект цепочки никто не санкционировал явно.

«Риск перемещается внутрь рабочего процесса — в последовательности индивидуально разрешённых действий, которые могут преобразовать бизнес-процесс, не авторизованный никем» — формулировка из работы, которая точно описывает разрыв между тем, как работает enterprise security сегодня, и тем, как работают агенты.

Особенно критична тема delegation chains. Пользователь делегирует агенту, агент — sub-агенту, тот — инструменту. Если где-то в этой цепочке полномочия расширяются вместо того, чтобы сужаться, это вектор атаки, который не закрывается никаким из существующих инструментов. Именно для этого вводится capability attenuation как формальный инвариант.

Идея шести interruption primitives вместо бинарного allow/deny — это сдвиг в сторону градуированного контроля. В продакшне жёсткий deny часто неприемлем: нужно уметь запросить дополнительный контекст, откатить действие, эскалировать человеку, поместить агента в карантин. Это меняет проектирование агентских систем с уровня «что агент делает» на уровень «как система реагирует на каждый шаг агента».

Кейсы применения в бизнесе

B2B-SaaS стартап с AI-агентами в продукте. Если ваши агенты действуют от имени клиента — пишут в CRM, отправляют письма, меняют настройки — пятиплоскостная модель становится чеклистом архитектурного ревью. Есть ли reasoning layer, оценивающий намерение до исполнения? Ведётся ли tamper-evident лог каждого action? Если нет — это gap, который в enterprise B2B-сейлзе закроет вам двери на этапе security questionnaire.

Корпорация с legacy-инфраструктурой. Агенты, интегрированные в ERP или финансовые системы через API, создают невидимые векторы: агент с правом записи может через несколько шагов изменить то, что ни один человек не авторизовывал явно. Практический шаг — ввести middleware-слой с capability attenuation policy: каждый вызов инструмента должен уточнять, а не расширять полномочия относительно предыдущего шага. Это реализуемо без полной перестройки инфраструктуры.

SMB и локальный бизнес в КР/СНГ. Если вы используете агентов для автоматизации — поддержки, продаж, документооборота — начните с простого: отдельный append-only лог каждого действия агента с timestamp и контекстом. Это минимальный аналог audit substrate из работы. При инциденте или споре с клиентом цепочка доказательств стоит несравнимо больше, чем несколько часов на её внедрение.

Кейсы в личной жизни

Разработчик, строящий agentic приложения. Прочитай секцию про шесть interruption primitives — это conceptual toolkit, который меняет подход к проектированию state machine агента. Вместо «делает или не делает» начни закладывать: может запросить подтверждение, откатить действие, эскалировать пользователю. Это влияет на архитектуру уже на этапе прототипа, а не как запоздалый патч.

Продакт или архитектор в AI-продукте. Пятиплоскостная модель — готовый framework для разговора с security-командой. Диалог «как защитить агента» часто заходит в тупик из-за отсутствия общего языка. Reasoning plane плюс четыре enforcement planes — структуру, которую поймут и devops, и CISO, и регулятор. Приди на следующий security review с этой схемой.

Студент или исследователь в области AI safety. Работа даёт формальный каркас: четыре инварианта корректности, таксономия угроз, референс-имплементация. Авторы явно обозначают full-system evaluation against a live agent benchmark как следующий открытый шаг — это конкретная незакрытая исследовательская задача для contribution или дипломной работы.

Как применить сегодня

Составьте карту действий ваших текущих агентов: какие инструменты вызывают, в каком порядке, от чьего имени — это baseline для любого governance.
Введите append-only лог каждого tool call с timestamp и контекстом — минимальный audit substrate без сложной инфраструктуры.
Проверьте delegation chain: если агент может вызвать sub-агента или передать полномочия, убедитесь, что полномочия при передаче только сужаются, а не расширяются.
Пересмотрите логику ошибок агента через призму шести interruption primitives — вместо hard deny добавьте сценарии «запросить контекст» и «эскалировать человеку».
Если готовитесь к enterprise B2B-сейлзу с AI-агентами в продукте — используйте архитектуру из этой работы как основу для ответов на security questionnaire заказчика.

#AI-агенты #безопасность #enterprise #agentic #архитектура

← Все статьи