Liquid AI выпустила LFM2.5-230M — наименьшую модель в своей линейке на сегодня. Открытые веса, 230 миллионов параметров, и замеренные цифры: 213 токенов в секунду на Samsung Galaxy S25 Ultra и 42 токена в секунду на Raspberry Pi 5. При этом на задачах instruction following модель обходит Qwen3.5-0.8B и Gemma 3 1B — оба ощутимо крупнее по объёму. Поддержка инфер-стеков с первого дня: llama.cpp, MLX, vLLM, SGLang, ONNX.
Контекст
Liquid AI строит альтернативу трансформерной архитектуре. В основе продукта — LFM (Liquid Foundation Models), подход, который развивается как более параметрически эффективная альтернатива классическому attention. LFM2.5-230M — это самая компактная реализация на базе LFM2, заточенная под две конкретные задачи: tool use и structured data extraction.
Широкий список поддерживаемых рантаймов — не случаен. llama.cpp покрывает Windows, Linux, Mac и ARM-девайсы; MLX оптимизирован под Apple Silicon; vLLM и SGLang — для серверного продакшена; ONNX — универсальный кросс-платформенный формат. Один открытый вес работает везде. Барьер входа нулевой для любого разработчика, который уже настраивал локальные модели.
Рынок движется в сторону edge с нескольких сторон одновременно: крупные чипмейкеры оснащают мобильные процессоры NPU, Apple и Google публично вкладываются в on-device inference, а регуляторы — особенно в корпоративном и госсекторе — всё чаще требуют, чтобы данные не покидали периметр. Liquid AI заходит в эту нишу с открытыми весами и нетрансформерным дизайном, что само по себе нетривиально.
Аналитика
Главное в этом релизе — не скорость, а архитектурная эффективность на параметр. Qwen3.5-0.8B содержит примерно в три с половиной раза больше параметров, Gemma 3 1B — примерно в четыре с лишним. Если LFM2.5-230M обходит их на instruction following, это конкретный бенчмарковый аргумент в пользу LFM-архитектуры на данном классе задач — не маркетинговый тезис.
42 токена в секунду на Raspberry Pi 5 — это порог, за которым edge-деплой становится продакшен-пригодным. Для асинхронных задач без UI (парсинг, extraction, tool-вызовы) такая скорость достаточна. В пересчёте на типичный extraction-запрос из 80-100 токенов на выходе — ответ за 2-3 секунды. При этом стоимость железа — в диапазоне бюджетного одноплатника, без GPU, без облака.
Более широкий сигнал: маленькие специализированные модели вытесняют большие универсальные в продакшен-деплоях. Архитектура «LFM2.5-230M для extraction + что-то крупнее для reasoning» даёт реальную экономию на инференсе и снижает латентность в agentic пайплайнах. Тем, кто строит агентные системы сейчас, стоит держать этот паттерн в уме — он быстро становится нормой.
Кейсы применения в бизнесе
B2B-SaaS стартап: модуль извлечения структурированных данных из документов (счета, договоры, анкеты) без внешних API. LFM2.5-230M через ONNX запускается прямо на сервере клиента — никаких ключей, никакой передачи данных наружу. Для клиентов в regulated-секторах (банки, госкомпании в КР и СНГ) это не опция, а требование. Стоимость инференса — только электричество.
Корпорация с legacy-инфраструктурой: edge-агент на изолированных машинах. Производственный объект без стабильного интернета, склад, полевое подразделение. Одноплатник с LFM2.5-230M вытаскивает ключевые поля из технических отчётов, форматирует данные для ERP — без облака, без round-trip задержки, без абонентской платы за токены.
SMB и локальный бизнес в КР и СНГ: автоматизация рутинного extraction без подписки на зарубежные LLM-сервисы. Небольшой интернет-магазин или логистическая компания разворачивает модель локально — парсит накладные, извлекает адреса доставки, возвращает структурированный JSON. Нет зависимости от курса доллара и от доступности зарубежных API.
Кейсы в личной жизни
Разработчик: локальный оркестратор в agentic пайплайне. LFM2.5-230M через llama.cpp вызывает функции, парсит JSON-ответы от других инструментов, форматирует вывод. Запускается фоном на ноутбуке без интернета — полезно для dev-окружения в дороге или при нестабильной связи. Без billing-счётчика в голове при каждом вызове.
Контент-мейкер или исследователь: extraction из RSS, документов, необработанных текстов без API-ключей. Настроил один раз — модель работает локально, вытаскивает структурированную информацию, складывает в таблицу. На Apple Silicon через MLX это происходит без заметного нагрева и без потребления батареи.
Студент или начинающий ML-инженер: живая среда для экспериментов с inference на реальном железе. Raspberry Pi 5 плюс LFM2.5-230M — полноценный стенд: тест разных квантизаций, замер производительности, практика tool-calling. Никаких кредитов, никакого billing-шока, никакой зависимости от облачного провайдера.
Как применить сегодня
- Найти открытые веса LFM2.5-230M на HuggingFace — модель опубликована как open-weight.
- Запустить через llama.cpp (любая платформа) или MLX (Apple Silicon) — оба рантайма поддерживаются официально из коробки.
- Первый тест — задачи structured extraction: дать на вход неструктурированный текст, попросить вернуть JSON с нужными полями. Это главная специализация модели.
- Встроить в agentic пайплайн как дешёвый локальный инструмент: tool-calling, парсинг ответов других API, форматирование данных перед передачей в более крупную модель.
- Если есть Raspberry Pi 5 — развернуть и замерить реальную скорость на своих данных. 42 tok/s на практике — это ответ за 2-3 секунды на типичный extraction-запрос.