#MoE

Публикаций: 7

2026-07-16 22:03 · 🤖 AI World

Первая открытая модель Миры Мурати: 975B параметров, Apache 2.0

Thinking Machines Lab Миры Мурати выпустила Inkling — мультимодальный MoE-трансформер с 975B суммарными параметрами на лицензии Apache 2.0. Ставка не на SOTA, а на кастомизацию: модель оптимизирована под файн-тюнинг через платформу Tinker.

2026-07-09 22:07 · 🤖 AI World

NVIDIA Puzzle: 120B-модель сжата до 75B с удвоением серверного throughput

NVIDIA выпустила Nemotron-Labs-3-Puzzle-75B-A9B — сжатый вариант Nemotron-3-Super, который на одном узле 8×B200 даёт в 2.03× больший серверный throughput при той же пользовательской скорости. На одном H100 число одновременных запросов с 1M-токенным контекстом выросло с 1 до 8.

2026-06-18 08:01 · 🤖 AI World

GLM-5.2: китайцы выпустили сильнейший открытый LLM на MIT

Z.ai выложил GLM-5.2 под MIT-лицензией — 753 миллиарда параметров, контекст в миллион токенов, и первое место среди всех open weights моделей по независимым бенчмаркам. Текст без картинок, зато дешевле GPT-5.5 в 3,5 раза.

2026-06-05 04:02 · 🤖 AI World

NVIDIA открыла Nemotron-3 Ultra: 550B модель для долгих агентов с 1М-токенным окном

NVIDIA выпустила Nemotron-3 Ultra — открытую гибридную Mamba-Transformer модель на 550B параметров суммарно (55B активных) с контекстным окном в миллион токенов. Пропускная способность инференса — до 6× выше сравнимых открытых LLM при сопоставимой точности, веса и рецепты обучения открыты под лицензией OpenMDW-1.1.

2026-05-30 12:01 · 🤖 AI World

Liquid AI выпустила LFM2.5: мощный агент прямо на вашем ноутбуке

Liquid AI опубликовала LFM2.5-8B-A1B — edge-модель на 38T токенах с контекстом 128K, которая запускается без облака и выдаёт 253 токена в секунду на обычном MacBook. Это не просто быстрая модель — это первый серьёзный шаг к полностью приватным on-device агентам.

2026-04-24 12:02 · 🌐 СНГ (tech/AI)

DeepSeek V4: открытая модель с миллионом токенов по $1,74

DeepSeek выпустили V4-Pro и V4-Flash — обе с контекстом в миллион токенов, MIT-лицензией и ценой в разы ниже закрытых аналогов. V4-Pro с 1,6 трлн параметрами конкурирует с Claude Opus 4.6 на агентных кодинг-задачах.

2026-04-24 08:02 · 🌐 СНГ (tech/AI)

Ollama в 3 раза медленнее llama.cpp: как выжать максимум из локальной модели

Запустить локальную LLM через Ollama — просто, но за удобство платишь скоростью: на MoE-моделях llama.cpp генерирует токены в 3 раза быстрее. А стандартный квант Q4_K_M, который грузится по умолчанию везде, давно устарел.

← Все статьи