Собрать inference-движок с нуля: C++, CUDA и никакого Python
Проект tiny-vLLM — это одновременно рабочий inference-сервер для Llama 3.2 и курс, который ведёт через каждую строчку кода. Автор строит то, что обычно скрыто за абстракциями фреймворков: от чтения Safetensors до FlashAttention-подобных CUDA-ядер.