2026-05-26 14:01 · 🤖 AI World

OmniVoice Studio: локальная замена ElevenLabs с 646 языками

Появился бесплатный open-source десктоп, который делает всё то, за что ElevenLabs берёт до $330 в месяц — клонирование голоса, дубляж видео, диктовка, диаризация — и всё это без интернета и без API-ключей.

OmniVoice Studio — десктопное приложение с открытым кодом, которое запускает полный пайплайн голосового ИИ локально: клонирование голоса из 3-секундного фрагмента, дубляж видео, системная диктовка, разделение спикеров и пакетная обработка до 50 файлов. Никаких облачных серверов, никаких подписок. Поддерживает 646 языков для TTS против 32 у ElevenLabs.

Контекст

ElevenLabs — лидер рынка голосового ИИ с тарифами от $5 до $330 в месяц. Каждый обработанный аудиофайл проходит через их облако. Для компаний с требованиями к конфиденциальности данных, для разработчиков в странах с ограниченным бюджетом или медленным интернетом — это реальный барьер.

OmniVoice Studio закрывает этот разрыв. Проект построен на стеке FastAPI + React + Tauri (Rust-обёртка для кросс-платформенных нативных приложений). Бэкенд экспонирует 97 API-эндпоинтов, хранит данные в SQLite, использует SSE для стриминга. Модели при первом запуске загружаются автоматически.

Под капотом — четыре серьёзных ML-библиотеки: WhisperX для ASR с word-level выравниванием (99 языков), Demucs от Meta для разделения вокала и фона, Pyannote для диаризации спикеров, AudioSeal от Meta для встраивания невидимого нейронного водяного знака в генерируемое аудио.

Аналитика

Самое интересное здесь — не сам факт «бесплатная альтернатива», а архитектурное решение. OmniVoice Studio поставляется со встроенным MCP Server, который запускается параллельно с FastAPI. Любой MCP-клиент — Claude, Cursor, ваш собственный агент — может напрямую обращаться ко всем возможностям приложения. Это переводит инструмент из категории «десктопный редактор» в категорию «локальный голосовой сервис для агентных пайплайнов».

Шесть подключаемых TTS-движков с возможностью добавить свой за ~50 строк Python — это pluggable architecture, которую часто обещают, но редко реализуют так чисто. OmniVoice (дефолт, 600+ языков), CosyVoice 3 (9 языков + 18 диалектов, Apache-2.0), MLX-Audio (только Apple Silicon, включает Qwen3-TTS), VoxCPM2, MOSS-TTS-Nano (реалтайм на CPU), KittenTTS (только английский, MIT) — можно переключать через переменную окружения.

GPU опционален: CUDA, Apple Silicon MPS, AMD ROCm определяются автоматически. При 8 ГБ VRAM и меньше TTS автоматически переключается на CPU во время транскрипции. Для рынков СНГ, где дорогие GPU-серверы — роскошь, это важная деталь.

Кейсы применения в бизнесе

B2B-SaaS стартап с мультиязычным продуктом. Команда записывает обучающие видео на русском, нужен дубляж на казахский, киргизский, узбекский. OmniVoice Studio закрывает весь пайплайн: WhisperX транскрибирует, перевод подключается внешне, TTS re-voices с сохранением фоновой музыки через Demucs. Затраты на облачный дубляж — нулевые, данные не покидают контур компании.

Корпорация с требованиями compliance. Финансовые или медицинские компании, которым нельзя передавать голосовые данные в третьи сервисы, получают полностью локальный стек. AudioSeal добавляет AI-провенанс в каждый генерируемый файл — это покрывает требования по маркировке ИИ-контента, актуальные для регуляторных сред.

Агентство или фрилансер в КР/СНГ. Вместо подписки ElevenLabs за $22–99/мес — нулевые операционные расходы. Batch Queue на 50 видео позволяет запустить пакет дубляжа на ночь и получить готовые MP4 утром. MCP Server открывает интеграцию с Claude или Cursor для полностью автоматизированного контент-пайплайна.

Кейсы в личной жизни

Разработчик или indie-хакер. Подключить OmniVoice Studio через MCP к Claude Code и генерировать озвучку для демо, презентаций или обучающих материалов прямо из терминала — без регистрации, без квот, без задержки на облачный round-trip. Диктовка через ⌘+⇧+Space на macOS заменяет ручной набор в любом приложении.

Контент-мейкер на YouTube. Клонирование голоса из 3-секундного клипа + дубляж на 646 языков — буквально: снял один ролик на русском, получил версии для казахской, английской, китайской аудитории с сохранённой музыкой фона. Всё локально, без подписок.

Студент или исследователь. Диаризация спикеров через Pyannote полезна для расшифровки интервью, конференций, подкастов с несколькими участниками. WhisperX даёт word-level тайминги — готовая основа для субтитров или анализа речи. Лицензия FSL-1.1-ALv2 разрешает использование для образовательных и исследовательских целей.

Как применить сегодня

Установить ffmpeg, Bun и uv, склонировать репозиторий debpalash/OmniVoice-Studio с GitHub, запустить uv sync && bun install && bun dev — фронтенд на порту 5173, API на 8000.
Для быстрого теста голосового клонирования: вкладка Voice Clone → загрузить 3-секундный фрагмент → ввести текст → выбрать язык → Generate. Веса модели скачаются автоматически.
Подключить OmniVoice Studio как MCP-сервер к Claude или Cursor: сервер стартует вместе с bun dev, адрес локальный — прописать в конфиге MCP-клиента.
Для дубляжа видео: вкладка Dub → вставить YouTube URL или загрузить файл → выбрать целевой язык → экспортировать MP4 с пересинтезированным аудио.
Переключить TTS-движок через OMNIVOICE_TTS_BACKEND или в Settings: для Apple Silicon попробовать MLX-Audio с Qwen3-TTS, для CPU-only сред — MOSS-TTS-Nano.

#open-source #голосовой ИИ #TTS #MCP #локальный ИИ

← Все статьи