Liquid AI выпустила LFM2.5-8B-A1B — обновлённую edge-модель архитектуры Mixture-of-Experts с 8B параметрами (активных — 1B) и обучением на 38 триллионах токенов. Контекстное окно расширено до 128K токенов, словарь удвоен до 128K для лучшей работы с нелатинскими языками. Модель доступна на HuggingFace и запускается на потребительском железе — от ноутбука до смартфона.
Контекст
Liquid AI — американский стартап, основанный выходцами из MIT. Компания разрабатывает собственную архитектуру LFM (Liquid Foundation Models), которая сочетает MoE, групповое внимание (GQA) и свёрточные блоки. В отличие от трансформерных гигантов, Liquid делает ставку на эффективность: меньше активных параметров при высокой точности.
Предыдущая версия LFM2-8B-A1B вышла в октябре 2025 года с 12T токенами обучения и контекстом 32K. LFM2.5 — это не просто патч: в три раза больше обучающих данных, принципиально иной подход к reasoning, антигаллюцинационный RL-этап и поддержка восьми языков с нелатинской письменностью (хинди, тайский, вьетнамский, индонезийский, арабский и другие).
На фоне гонки за сотни миллиардов параметров Liquid движется в обратную сторону: модель должна работать везде — без API-ключей, без облака, без утечки данных. Это принципиально другой рынок, и он быстро растёт.
Аналитика
Три числа, которые объясняют, почему это важно. На M5 Max — 253 токена в секунду. На Ryzen AI Max+ 395 — 146 токенов/с. На смартфоне — ~30 токенов/с. Всё это при потреблении менее 6 ГБ RAM. На одном H100 модель выдаёт 18 500 токенов в секунду при высокой конкурентности — больше 1,6 миллиарда токенов в день.
Это не игрушка. Это production-инструмент, который умещается в ноутбук. Команда Liquid показала демо LocalCowork: агент на LFM2.5, 67 инструментов через 13 MCP-серверов, один ноутбук, ноль облачных вызовов. Цикл «запрос → предложение → подтверждение → выполнение» — меньше секунды на dispatch. Это то, о чём говорят в теории agentic AI — только работающее вживую на железе за $2000.
Важен и антигаллюцинационный подход. Liquid ввела специальный RL-этап с avg@k-наградой по датасету знаний: модель учится признавать незнание вместо того чтобы придумывать ответ. Для edge-устройств, где параметров мало и «память» ограничена, это критично. Также добавили борьбу с doom loops в длинных reasoning-цепочках — проблема, которая убивает качество у многих моделей с CoT.
Кейсы применения в бизнесе
B2B-SaaS стартап с AI-функциями. Вместо того чтобы гонять каждый пользовательский запрос через OpenAI API и платить за каждый токен, можно встроить LFM2.5 прямо в десктопное приложение. Пользователь получает приватный AI-агент без задержек сети, вы — нулевые операционные расходы на inference. Особенно актуально для продуктов в юрисдикциях с требованиями к локализации данных — например, в Кыргызстане по Цифровому кодексу №178.
Корпорация с legacy-инфраструктурой. На многих предприятиях чувствительные документы нельзя отправлять в облако. LFM2.5 через llama.cpp запускается на корпоративном сервере без интернета, обрабатывает контракты, внутренние регламенты, финансовые отчёты с контекстом 128K — это около 90 000 слов за один проход. Результат: юридический или финансовый ассистент с нулевым data-leakage.
SMB и локальный бизнес в СНГ. Небольшая компания в Бишкеке или Алматы, у которой нет бюджета на корпоративные API-подписки, может развернуть LFM2.5 на обычном офисном компьютере с дискретной видеокартой. Поддержка вьетнамского, арабского, хинди намекает: нелатинские языки в приоритете — кыргызский и русский токенизируются эффективнее, чем в большинстве западных моделей.
Кейсы в личной жизни
Разработчик. Запустить LFM2.5 через llama.cpp локально, подключить к VS Code или cursor-подобному редактору через MCP-сервер. Получить code-ассистента с 128K контекстом, который видит весь ваш репозиторий и не передаёт код на сторонние серверы. На M-серии Mac — это быстрее, чем кажется.
Контент-мейкер и фрилансер. Модель хорошо справляется со следованием инструкциям (instruction following) и цепочками вызовов инструментов. Можно собрать локального агента-редактора: читает транскрипт, реструктурирует, адаптирует под платформу — всё в одном pipeline без облака. Особенно ценно для работы с материалами, которые вы не хотите отдавать в обучающие датасеты сервисов.
Студент или исследователь. 128K контекст — это примерно диссертация целиком за один раз. LFM2.5 работает как reasoning-модель с явным chain of thought, что делает её полезной для анализа больших документов, суммаризации и ответов на вопросы по тексту. Скачать с HuggingFace, запустить через MLX на MacBook — задача на 15 минут.
Как применить сегодня
- Скачать модель с HuggingFace (поиск:
liquid-ai/LFM2.5-8B-A1B) и запустить через llama.cpp или MLX — инструкция в официальной документации Liquid AI. - Попробовать LocalCowork — open-source демо Liquid с поддержкой MCP-серверов. Показывает agentic loop на потребительском железе без облака.
- Если нужна production-нагрузка — поднять через vLLM или SGLang на арендованном H100, получить 18K+ токенов/с на один инстанс.
- Для мобильных приложений — изучить LEAP (Liquid Edge AI Platform) с поддержкой iOS и Android.
- Сравнить с Gemma 4-26B на своих задачах: по instruction following LFM2.5 конкурентен при значительно меньшем числе активных параметров — для многих сценариев это победа по cost/quality.
«Цикл ask → propose → confirm → run, весь менее секунды на dispatch, с полным audit trail и данными, которые не покидают устройство» — описание LocalCowork в блоге Liquid AI.