2026-06-20 14:02 · 🤖 AI World

ИИ-агент читает финансовые графики и ведёт аудит каждого шага

18 июня 2026 года на arXiv вышел AgentFinVQA — мульти-агентный пайплайн для вопросно-ответной работы по финансовым графикам с полным трейслогом каждого решения. Система разворачивается on-premise без внешних API и на бенчмарке FinMME обходит zero-shot baseline на 7.68 п.п.

Исследователи Aravind Narayanan и Shaina Raza опубликовали на arXiv систему AgentFinVQA: мульти-агентный пайплайн, который отвечает на вопросы по финансовым графикам и при этом фиксирует каждый шаг рассуждений в структурированном пакете MEP (Model Evaluation Packet). Вся обработка происходит локально — клиентские данные не покидают периметр компании. На бенчмарке FinMME пайплайн с бэкбоном Gemini Flash набрал 71.24% против 63.56% у zero-shot baseline (+7.68 п.п.), а вариант с открытыми весами Qwen3.6-27B-FP8, развёрнутым локально, дал прирост +4.84 п.п.

Контекст

Финансовые отчёты, квартальные результаты, графики доходности — всё это существует в форматах, которые плохо поддаются автоматическому анализу. Chart QA — одна из самых практически востребованных задач в финтехе, управляющих компаниях, аудиторских фирмах. Проблема: существующие системы либо непрозрачны (дают ответ без объяснений), либо требуют отправки данных в облако. В регуляторной среде — банки, страховые, инвестиционные дома — оба варианта неприемлемы.

AgentFinVQA предлагает иную архитектуру. Каждый запрос проходит через 5 специализированных агентов: планирование → OCR (извлечение текста с графика) → legend grounding (привязка легенды к данным) → визуальная инспекция → верификация. Каждый этап логируется. Итоговый MEP — полный след рассуждений, который можно передать регулятору или внутреннему комплаенсу. По заявлению авторов, до AgentFinVQA ни одна известная им система не совмещала аудитируемость с on-premise развёртыванием без существенных потерь точности.

Разрыв между проприетарным и open-weights вариантами (+7.68 против +4.84 п.п.) невелик. Это говорит о том, что Qwen3.6-27B-FP8 сохраняет большую часть прироста при полном контроле над данными — практически важный результат для организаций, которые не могут использовать внешние API.

Аналитика

Самое интересное здесь — не accuracy сама по себе, а верификатор как сигнал доверия. Ответы, которые верификатор подтверждает, дают 68.2% точных результатов; ответы, отправленные на пересмотр — лишь 55.6%. Разница в 12.6 п.п. позволяет выстроить human-in-the-loop: аналитик получает не просто ответ, а оценку уверенности системы и может направлять спорные кейсы на ручную проверку. ИИ перестаёт быть чёрным ящиком.

Анализ ошибок показывает структуру задачи: около двух третей провалов приходятся на непонимание вопроса, путаницу в легенде и ошибки извлечения. Именно эти категории верификатор ловит хуже всего — авторы честно указывают на это как на направление для будущей работы. Для практиков вывод такой: типовые запросы автоматизируются хорошо, граничные кейсы (нестандартные обозначения, многослойные графики с перекрывающимися рядами) пока требуют человека.

Более широкий тренд: мульти-агентные пайплайны с трейслогом становятся архитектурным стандартом для regulated AI. Финансовый сектор — первый, но не последний. Схожие требования к объяснимости и локализации данных уже появляются в медицинской диагностике, юридической аналитике, государственных закупках. В контексте Цифрового кодекса КР (Закон №178) требования к локализации данных делают on-premise agentic AI не просто удобством, а необходимостью для работы с персональными и финансовыми данными граждан.

Кейсы применения в бизнесе

B2B-SaaS стартап в финтехе. Продукт для инвестиционных аналитиков: загружаешь квартальный отчёт в виде изображения, задаёшь вопросы по графикам — система отвечает с трейслогом. Клиент-банк передаёт MEP-пакет внутреннему аудиту без доработок. Qwen3.6-27B-FP8 разворачивается на GPU-сервере клиента — данные не покидают периметр. Это compliance-ready позиционирование, которое снимает главный барьер при продаже финансовым институтам.

Корпорация с legacy-инфраструктурой. Крупная управляющая компания или страховщик уже имеет BI-платформу, но аналитики тратят часы на ручной разбор отчётов. Агентный пайплайн интегрируется как микросервис: принимает изображение и вопрос, возвращает ответ + MEP. Human-in-the-loop роутинг автоматически пропускает уверенные ответы и отправляет спорные на ревью старшему аналитику. Потенциальная экономия — несколько часов ручной работы в день на команду из 5–10 человек.

SMB и локальный бизнес в КР/СНГ. Небольшая инвестиционная компания или брокер в Бишкеке не может позволить себе ни дорогой enterprise-инструмент, ни команду data scientists. Открытый код AgentFinVQA плюс локально развёрнутая модель (через vLLM или аналоги) — рабочий вариант без подписки на проприетарные API. Данные клиентов остаются внутри, что напрямую соответствует требованиям по локализации из Цифрового кодекса КР.

Кейсы в личной жизни

Разработчик или ML-инженер. Код опубликован открыто. Можно изучить архитектуру пайплайна и адаптировать MEP-паттерн для собственных агентных проектов. Это готовый шаблон аудитируемого агента — не только для финансов, но для любой задачи, где нужно документировать ход рассуждений.

Аналитик или финансист. Если вы вручную читаете десятки графиков в квартал, начните с простого: загрузите финансовый график в Gemini Flash или GPT-4o с vision и задайте конкретный вопрос. Это займёт минуту и даст понимание базового уровня качества. AgentFinVQA — следующий уровень, когда появится hosted-версия или когда инфраструктура позволит развернуть локально.

Студент или исследователь. Статья с открытым кодом и бенчмарком FinMME — хороший стартпойнт для курсовой или дипломной работы по agentic AI в финтехе. Архитектура MEP — конкретная идея для экспериментов: как документировать рассуждения агента и измерять калиброванность его уверенности на реальных данных.

Как применить сегодня

Найди статью AgentFinVQA на arXiv (идентификатор 2606.19782) и репозиторий авторов — код открыт для воспроизведения и экспериментов.
Протестируй Gemini Flash или GPT-4o с vision на реальных финансовых графиках из своих отчётов — час работы даст понимание базового качества chart QA до внедрения агентного пайплайна.
Если строишь B2B-продукт в финтехе или смежной регулируемой области: заложи концепцию трейслога (аналог MEP) в архитектуру с самого начала — это снизит стоимость compliance-аудита в будущем.
ML-инженерам: изучи верификатор как confidence estimator — это переносимый паттерн для любого агентного пайплайна, где нужно сортировать ответы по надёжности перед показом пользователю.
Следи за бенчмарком FinMME как точкой сравнения: когда выйдут новые версии моделей, это будет стандартная линейка для оценки chart QA.

#мульти-агент #финансовый анализ #аудит #on-premise #LLM #agentic AI

← Все статьи