#MoE

Публикаций: 4

NVIDIA открыла Nemotron-3 Ultra: 550B модель для долгих агентов с 1М-токенным окном

NVIDIA выпустила Nemotron-3 Ultra — открытую гибридную Mamba-Transformer модель на 550B параметров суммарно (55B активных) с контекстным окном в миллион токенов. Пропускная способность инференса — до 6× выше сравнимых открытых LLM при сопоставимой точности, веса и рецепты обучения открыты под лицензией OpenMDW-1.1.

Liquid AI выпустила LFM2.5: мощный агент прямо на вашем ноутбуке

Liquid AI опубликовала LFM2.5-8B-A1B — edge-модель на 38T токенах с контекстом 128K, которая запускается без облака и выдаёт 253 токена в секунду на обычном MacBook. Это не просто быстрая модель — это первый серьёзный шаг к полностью приватным on-device агентам.

DeepSeek V4: открытая модель с миллионом токенов по $1,74

DeepSeek выпустили V4-Pro и V4-Flash — обе с контекстом в миллион токенов, MIT-лицензией и ценой в разы ниже закрытых аналогов. V4-Pro с 1,6 трлн параметрами конкурирует с Claude Opus 4.6 на агентных кодинг-задачах.

Ollama в 3 раза медленнее llama.cpp: как выжать максимум из локальной модели

Запустить локальную LLM через Ollama — просто, но за удобство платишь скоростью: на MoE-моделях llama.cpp генерирует токены в 3 раза быстрее. А стандартный квант Q4_K_M, который грузится по умолчанию везде, давно устарел.

← Все статьи