2026-06-09 08:01 · 🤖 AI World

FP8 вместо FP64: как ИИ-чипы перевернули логику суперкомпьютеров

Статья Сатоши Мацуоки (arXiv, май 2026) бьёт по одной из главных догм HPC: что без нативного FP64 в кремнии настоящая научная точность невозможна. Оказывается, FP8 плюс математический трюк из теории чисел даёт в сотни раз больше производительности при той же точности.

NVIDIA Blackwell Ultra (B300) — флагман нового поколения GPU — несёт нативную FP64-производительность около 1,3 TFLOPS. Это в 31 раз меньше, чем у предыдущего B200. Звучит как катастрофа для HPC. Но исследователь Сатоши Мацуока утверждает: катастрофы нет. Потому что правильный вопрос — не «сколько нативного FP64», а «можно ли эмулировать FP64-точность дешевле».

Контекст

Высокопроизводительные вычисления (HPC) — это климатические модели, симуляция молекул, аэродинамика, физика плазмы. Там десятилетиями царила аксиома: нужна двойная точность (FP64) прямо в железе, иначе ошибки накапливаются и результат нельзя доверять. Именно поэтому HPC-рынок платил огромную премию за чипы вроде NVIDIA A100 или AMD MI300X, где FP64-ядра занимали значительную площадь кремния.

Но у AI-оптимизированных GPU логика другая. B300, как и все чипы поколения Blackwell, заточен под тензорные операции FP8/FP16/BF16 для трансформеров. Нативный FP64 там — рудимент. И это создало парадокс: самые мощные GPU в мире стали «плохими» для классического HPC.

Мацуока — директор RIKEN Center for Computational Science (Япония), один из архитекторов суперкомпьютера Fugaku. Его голос в этой дискуссии не академический, а операционный: речь о реальных производственных HPC-кластерах на миллиарды долларов.

Аналитика

Центральный тезис работы: схема Ozaki Scheme II (основана на Китайской теореме об остатках) позволяет разбить FP64-операцию на серию FP8-операций и получить результат с полной FP64-точностью. На B300 это даёт ~500 TFLOPS эмулированного FP64 — против 1,3 TFLOPS нативного. На следующем поколении Rubin R200 проекция — ~400 TFLOPS. Это на порядок выше, чем нативный FP64 даже у B200.

Авторы вводят модель Tensor-Memory Equilibrium (TME) — расширение классической Roofline-модели с тремя параметрами: compute multiplier, bandwidth multiplier и reconstruction latency. Модель показывает, что при правильном fusion на уровне регистров эмуляция становится «бесплатной» за стеной памяти. Это не магия: просто тензорный throughput настолько огромен, что эмуляционный overhead теряется в латентности памяти.

Практическое следствие для рынка: если тезис подтвердится в продакшене, HPC-центрам не нужно покупать отдельные FP64-специализированные чипы. Один B300-кластер закрывает и AI-обучение, и научные симуляции. Это меняет экономику закупок суперкомпьютеров и потенциально ударяет по нише AMD MI300X и Intel Gaudi, которые делали ставку именно на HPC-точность.

Кейсы применения в бизнесе

B2B-SaaS стартап в физике/химии/биоинформатике. Если ваш продукт делает молекулярное моделирование или симуляцию материалов на GPU — следите за реализациями Ozaki II в CUDA. Переход с арендованных FP64-кластеров (дорогих, редких) на AI-GPU с программной эмуляцией может снизить стоимость вычислений в разы. Вариант стратегии: подождать open-source имплементаций Ozaki II в следующие 6–12 месяцев, затем тестировать на своих бенчмарках.

Корпорация с legacy HPC-инфраструктурой (нефтянка, авиа, финансовое моделирование). Следующий цикл закупки GPU-кластеров — повод пересмотреть архитектуру. Если Ozaki II входит в mainstream CUDA или ROCm, обоснование покупки дорогих FP64-чипов слабеет. Рекомендация: включить в RFP требование о поддержке смешанной точности и эмуляционных схем, не только нативного FP64.

SMB и локальный бизнес в КР/СНГ, работающий с арендованными GPU в облаке. Прямого эффекта сегодня нет, но косвенный есть: если AI-GPU станут универсальными для HPC, конкуренция на рынке облачных вычислений вырастет, цены снизятся. Уже сейчас стоит смотреть на облачных провайдеров, предлагающих B200/B300, а не только на «HPC-специализированные» инстансы по двойной цене.

Кейсы в личной жизни

Разработчик или ML-инженер. Если вы пишете научный код на CUDA или занимаетесь numerical computing — статья стоит прочтения. TME-модель даёт новый инструмент для анализа производительности. Практика: попробуйте профилировать свои ядра через Roofline и задайтесь вопросом, где именно вы ограничены памятью, а не вычислениями. Именно там Ozaki II даёт наибольший выигрыш.

Студент или исследователь в computer science/физике. Это отличный пример «переосмысления аксиомы». Методологически ценна сама схема аргументации: взять устоявшееся убеждение, построить аналитическую модель, проверить на корзине реальных бенчмарков (SpMV, GEMV, stencils, FFT). Подход применим в любой дисциплине, где есть «священные коровы» производительности.

Технический директор или архитектор в стартапе. Следите за тем, как этот тезис проникнет в документацию NVIDIA и в фреймворки (cuBLAS, cuSPARSE). Если в следующем релизе CUDA появится нативная поддержка Ozaki-style FP64 emulation — это сигнал к пересмотру вашего hardware roadmap. Не нужно действовать сейчас, но нужно держать радар включённым.

Как применить сегодня

Прочитать оригинальный препринт на arXiv (arXiv:2606.06510) — особенно раздел с TME-моделью и Ozaki II, если вы занимаетесь численными методами.
Проверить свои текущие GPU-рабочие нагрузки через Roofline-анализ: какой процент времени вы memory-bound, а не compute-bound? Именно в memory-bound режиме эмуляция «бесплатна».
Если закупаете GPU в 2026–2027 году — добавить в сравнение B300 не только по нативному FP64, но и по потенциальному эмулированному throughput с учётом Ozaki II.
Подписаться на репозитории, связанные с Ozaki Scheme и mixed-precision HPC на GitHub/HuggingFace — там появятся первые имплементации.
Следить за RIKEN и партнёрскими публикациями: «Part 2» той же серии посвящён FFT — ещё одному критическому HPC-ядру.

#HPC #FP8 #GPU #NVIDIA #численные методы

← Все статьи