Microsoft солгала про «чистые данные» для MAI — там обычный Common Crawl
Microsoft позиционировала свои MAI-модели как обученные исключительно на лицензированных данных — «enterprise grade, clean and commercially licensed». Расследование The Decoder показало: в датасете тот же Common Crawl, что и у всех остальных.