#inference

Публикаций: 4

Собрать inference-движок с нуля: C++, CUDA и никакого Python

Проект tiny-vLLM — это одновременно рабочий inference-сервер для Llama 3.2 и курс, который ведёт через каждую строчку кода. Автор строит то, что обычно скрыто за абстракциями фреймворков: от чтения Safetensors до FlashAttention-подобных CUDA-ядер.

Дорогой Claude, дешёвый DeepSeek: когда аутсорс выгоднее frontier

Frontier-лабы поднимают цены быстрее, чем обещали их снизить. Инженер в дешёвой стране + открытая модель уже сегодня бьют GPT или Claude по соотношению цены и результата.

Claude Code за $40 нашёл алгоритм, до которого люди не додумались

Команда исследователей из UMD, Google и Meta позволила Claude Code самостоятельно искать алгоритмы масштабирования тест-тайм вычислений. За 160 минут и $40 агент нашёл алгоритм, который режет compute на 70% без потери точности.

Nemotron Diffusion от NVIDIA: параллельная генерация и скорость в 6× быстрее AR

NVIDIA выпустила семейство диффузионных языковых моделей Nemotron-Labs Diffusion — 3B, 8B и 14B параметров с коммерческой лицензией. Главное отличие от обычных LLM: токены генерируются блоками параллельно и могут исправляться итеративно, а не фиксироваться навсегда.

← Все статьи