2026-06-05 20:01 · 🤖 AI World

Microsoft солгала про «чистые данные» для MAI — там обычный Common Crawl

Microsoft позиционировала свои MAI-модели как обученные исключительно на лицензированных данных — «enterprise grade, clean and commercially licensed». Расследование The Decoder показало: в датасете тот же Common Crawl, что и у всех остальных.

Microsoft продаёт свой подход к обучению LLM как принципиально иной — не как у «обычных» AI-лабораторий. Компания обещала корпоративным клиентам, что модели серии MAI обучены на «enterprise grade, clean and commercially licensed data». Реальность оказалась прозаичней: в обучающем датасете — Common Crawl, крупнейший веб-архив с нелицензированным контентом, на котором тренируются практически все крупные LLM на рынке.

Контекст

MAI (Microsoft AI) — серия фирменных языковых моделей, которую Microsoft разрабатывает параллельно с использованием GPT-семейства от OpenAI. Модели позиционируются как корпоративный продукт с акцентом на compliance, безопасность и «чистоту» источников. Именно эта риторика должна была выделить Microsoft на фоне конкурентов — особенно на фоне судебных претензий к OpenAI, Meta и другим крупным игрокам по поводу использования авторских текстов без разрешения правообладателей.

Common Crawl — некоммерческий проект, который регулярно сканирует открытый интернет и сохраняет содержимое страниц. Он лежит в основе обучающих датасетов практически всех крупных моделей: GPT, Llama, Mistral, Gemini, Qwen, DeepSeek. Данные берутся «как есть», без согласия авторов сайтов. Именно это и составляет предмет волны судебных исков против AI-компаний в США и Европе.

Microsoft при этом придерживается той же позиции, что и остальные лаборатории: обучение на открытых веб-данных подпадает под доктрину fair use, а ответственность за исключение своего контента лежит на самих владельцах сайтов — через robots.txt или блокировку краулеров. Это стандартная юридическая позиция, но она прямо противоречит маркетинговым заявлениям про «commercially licensed data».

Аналитика

История не просто про один эпизод корпоративного лукавства. Она про системную проблему: когда регуляторное давление на AI-компании растёт, возникает соблазн декларировать «чистоту» датасетов как конкурентное преимущество — не потому что это правда, а потому что корпоративные покупатели хотят это слышать. Microsoft попала в ловушку собственного нарратива.

Для B2B-покупателей это реальный риск. Контракты на корпоративное AI нередко включают положения о compliance с авторским правом — особенно в финансовом секторе, медиа, юриспруденции. Если вендор обещает «лицензированные данные», а на деле это не так, компания-покупатель может унаследовать юридическую ответственность. В Европе с GDPR и AI Act это особенно чувствительно.

Более широкий тренд: весь рынок LLM движется к большей прозрачности датасетов под давлением регуляторов и судебных исков. Adobe, Getty, крупные медиаизданиям уже подают в суд. Ответ индустрии пока — defensive litigation + минимальное раскрытие. Но корпоративные покупатели начинают требовать data cards и model cards как часть procurement-процесса. Кто предоставит честную документацию первым — получит реальное конкурентное преимущество, а не просто маркетинговый нарратив.

Кейсы применения в бизнесе

B2B-SaaS стартап в КР/СНГ: если вы строите продукт поверх LLM-API и продаёте корпоративным клиентам — уже сегодня стоит подготовить ответ на вопрос «на каких данных обучена модель?». Не для суда, а для procurement-checklist. Ответ «мы используем API Microsoft/OpenAI, у них fair use позиция» — достаточен для большинства SMB-клиентов, но не для банков или госзаказчиков. Сценарий: добавьте в документацию продукта раздел AI Transparency с описанием моделей и ограничений.

Корпорация с legacy: юридический и compliance-отдел должен знать, что заявления вендоров о «чистых данных» требуют верификации. Запрашивайте у Microsoft, OpenAI и других партнёров формальные data lineage документы перед подписанием enterprise-контрактов. Если документов нет — это риск, который нужно явно зафиксировать в контракте с ограничением ответственности.

Медиа-компания или издательство в СНГ: ваш контент, возможно, уже в Common Crawl и в обучающих датасетах без вашего ведома. Практический шаг — проверить и обновить robots.txt, добавив блокировку AI-краулеров (CCBot и аналоги). Это не остановит уже сделанные копии, но снизит риск включения новых материалов в будущие датасеты.

Кейсы в личной жизни

Разработчик: если вы работаете на компанию, которая использует корпоративные AI-инструменты (GitHub Copilot, Azure OpenAI), понимание реального происхождения обучающих данных важно для оценки рисков при работе с проприетарным кодом клиентов. Не отправляйте в промпт закрытый IP клиента, даже в «безопасный» корпоративный тариф — потому что границы использования данных для дообучения размыты.

Контент-мейкер и блогер: если вы публикуете оригинальные материалы и не хотите, чтобы они попали в обучающие датасеты — добавьте в robots.txt директивы для AI-краулеров. Несколько строк конфига защищают новый контент, хотя уже опубликованный, скорее всего, уже в архивах.

Студент или исследователь: история MAI — хороший пример для понимания разрыва между маркетингом AI-продуктов и их технической реальностью. При выборе инструментов для академических или коммерческих проектов смотрите не на лендинг, а на модельные карточки и официальные технические отчёты — они честнее.

Как применить сегодня

Проверьте robots.txt своего сайта и добавьте блокировку CCBot, GPTBot, anthropic-ai если не хотите попасть в будущие датасеты.
При заключении enterprise-контрактов с AI-вендорами запрашивайте формальные data lineage или model card документы — и фиксируйте ответ в приложении к договору.
Если вы продаёте B2B-продукт с AI-компонентом — добавьте в документацию раздел AI Transparency: какие модели, какая позиция по авторским данным, какие ограничения.
Следите за прецедентными судебными делами против AI-лабораторий в США и ЕС — их исходы напрямую повлияют на compliance-требования к корпоративным AI-продуктам в ближайшие 1-2 года.
Не доверяйте маркетинговым формулировкам «clean data» / «licensed data» без верификации: запрашивайте конкретику или трактуйте как незакреплённое заявление.

#Microsoft #LLM #датасеты #авторское право #AI compliance

← Все статьи