2026-05-10 14:01 · 🌐 СНГ (tech/AI)

Cisco выпустила ДНК-тест для ИИ-моделей с открытым кодом

Cisco открыла Model Provenance Kit — Python-инструмент, который строит «отпечаток» весов и метаданных любой модели и сравнивает его с базой из ~150 базовых моделей от 20 издателей. Вопрос «откуда эта модель?» теперь проверяем инструментально, а не на доверии к README.

Cisco выпустила Model Provenance Kit — открытый Python-инструментарий с CLI, который анализирует метаданные и веса ИИ-модели, строит её «отпечаток» и сравнивает его с другими моделями или базой известных семейств. Из 111 проверенных пар моделей ошибочно классифицировано только четыре — и то лишь при экстремальных архитектурных трансформациях. Стандартные производные (fine-tune, alignment-tuning, rebrand под другим именем) инструмент распознаёт в 100% случаев.

Контекст

Рынок open-source моделей на HuggingFace и аналогичных репозиториях растёт быстрее, чем растёт документация к ним. Модели переупаковываются, переименовываются, тонко настраиваются и публикуются с неполными карточками — иногда по незнанию, иногда намеренно. Компании, которые разворачивают такие модели во внутренних системах, де-факто принимают на себя риски лицензий, которые даже не читали.

Cisco — один из крупнейших корпоративных покупателей сетевой и облачной инфраструктуры — смотрит на ИИ прежде всего через призму безопасности цепочки поставок. Именно это подразделение ранее публиковало отчёты об уязвимостях в popular open-source LLM-стеках. Model Provenance Kit — логичное продолжение: не просто «сканируй модель на вредоносное поведение», а «докажи, что ты вообще знаешь, что это за модель».

База сканирования на старте включает ~150 базовых моделей из более чем 45 семейств и 20 издателей — Meta, Google, Alibaba, Microsoft, DeepSeek, Nvidia, OpenAI и другие. Это живой реестр: по мере появления новых базовых весов база будет пополняться.

Аналитика

Инструмент работает в два этапа. Первый — «архитектурный скрининг»: сравнение конфигураций и структурных метаданных. Cisco утверждает, что это уже закрывает «значительную часть» задач без погружения в веса. Второй этап — анализ на уровне весов по пяти сигналам: сходство якорных вложений (EAS), распределение норм вложений (END), отпечаток слоя норм (NLF), энергетический профиль слоя (LEP) и косинус значения веса (WVC). Эта комбинация позволяет отличить модели с идентичной архитектурой, но независимо обученные, от тех, что буквально вышли из одной базы.

Практически это означает: если кто-то взял Qwen или Llama-производную, переназвал её и выложил под другим брендом — kit это поймает. Режим сравнения позволяет сопоставить две произвольные модели напрямую. Режим сканирования — прогнать одну модель против всей базы известных отпечатков.

Для корпоративного compliance это особенно актуально: регуляторы в ЕС (AI Act) и всё активнее в СНГ требуют документировать происхождение используемых ИИ-систем. Не иметь ответа на вопрос «откуда эта модель?» — уже сегодня означает regulatory gap, а через год-два — потенциальный штраф. В Кыргызстане Цифровой кодекс №178 ввёл требования к прозрачности алгоритмических систем, и вопрос происхождения весов со временем окажется в той же орбите.

Кейсы применения в бизнесе

B2B-SaaS стартап, строящий продукт на open-source LLM. Команда берёт модель с HuggingFace для production-деплоя. Model Provenance Kit запускается в CI/CD как шаг проверки: если итоговая оценка сходства превышает порог с известной AGPL-моделью — алёрт до деплоя, а не после аудита. Экономит потенциально болезненный разговор с юристом об open-source лицензиях.

Корпорация с legacy-инфраструктурой. ИТ-отдел накопил несколько дюжин «проверенных» внутренних моделей, часть из которых подбиралась несколько лет назад. Прогон базы через scan-режим даст карту происхождения всего зоопарка — без ручного поиска по старым Confluence-страницам. Особенно важно, если компания проходит SOC 2 или ISO 27001: аудиторы начинают задавать именно эти вопросы.

SMB и локальный бизнес в КР/СНГ. Небольшие команды, разворачивающие open-source чат-ботов или классификаторы, как правило, не читают лицензии вообще. Запустить kit раз перед запуском продукта — 15 минут работы, зато появляется документированный ответ на случай партнёрского или юридического вопроса. Для аутсорсинговых студий, сдающих работу западным клиентам, это аргумент в переговорах.

Кейсы в личной жизни

Разработчик, экспериментирующий с локальными моделями. Скачал очередную «улучшенную Mistral» с форума — хочется понять, это реально новая модель или переупакованная base без изменений. Сравнение через compare-режим за пару минут покажет итоговый score: высокий — это тот же вес, только переименованный; низкий — что-то действительно менялось.

ML-исследователь или студент, пишущий диплом/статью. Нужно честно задокументировать, какая именно базовая модель лежит в основе fine-tune. Model Provenance Kit даёт воспроизводимое доказательство происхождения — это аргумент как для научной честности, так и для peer review.

Контент-мейкер или фрилансер, предлагающий AI-продукты клиентам. Клиент спрашивает: «А какая у вас модель, и нет ли там проблем с лицензией?» Вместо пожимания плечами — запускаешь scan, прикладываешь отчёт к коммерческому предложению. Это повышает доверие и отличает от конкурентов, которые этого не делают.

Как применить сегодня

Найти репозиторий Model Provenance Kit на GitHub (поиск: cisco-open model-provenance-kit) — инструмент открытый, лицензия Apache 2.0.
Установить через pip install, запустить scan-режим на любой модели из своего стека — получить отчёт о происхождении за несколько минут.
Добавить шаг mpk scan --model ./weights/ в CI/CD pipeline перед деплоем production-модели — автоматическая проверка при каждом обновлении весов.
Если используете HuggingFace: перед загрузкой новой модели прогнать её через compare-режим против уже используемой базовой — убедиться, что это не один и тот же вес под другим именем.
Задокументировать результаты сканирования как часть Model Card или внутреннего AI-реестра — пригодится при любом compliance-аудите.

«Поскольку модели постоянно совершенствуются, перерабатываются, объединяются и переупаковываются, файлы моделей перестали быть статическими активами. Отслеживать происхождение становится сложнее, а скрывать его становится легче» — исследователи Cisco.

#open source #AI безопасность #LLM #supply chain #Cisco

← Все статьи