2026-05-30 04:01 · 🤖 AI World
Проект tiny-vLLM — это одновременно рабочий inference-сервер для Llama 3.2 и курс, который ведёт через каждую строчку кода. Автор строит то, что обычно скрыто за абстракциями фреймворков: от чтения Safetensors до FlashAttention-подобных CUDA-ядер.
2026-05-27 12:01 · 🤖 AI World
Frontier-лабы поднимают цены быстрее, чем обещали их снизить. Инженер в дешёвой стране + открытая модель уже сегодня бьют GPT или Claude по соотношению цены и результата.
2026-05-25 00:01 · 🤖 AI World
Команда исследователей из UMD, Google и Meta позволила Claude Code самостоятельно искать алгоритмы масштабирования тест-тайм вычислений. За 160 минут и $40 агент нашёл алгоритм, который режет compute на 70% без потери точности.
2026-05-24 12:02 · 🤖 AI World
NVIDIA выпустила семейство диффузионных языковых моделей Nemotron-Labs Diffusion — 3B, 8B и 14B параметров с коммерческой лицензией. Главное отличие от обычных LLM: токены генерируются блоками параллельно и могут исправляться итеративно, а не фиксироваться навсегда.