#CUDA

Публикаций: 1

Собрать inference-движок с нуля: C++, CUDA и никакого Python

Проект tiny-vLLM — это одновременно рабочий inference-сервер для Llama 3.2 и курс, который ведёт через каждую строчку кода. Автор строит то, что обычно скрыто за абстракциями фреймворков: от чтения Safetensors до FlashAttention-подобных CUDA-ядер.

← Все статьи