#голосовые агенты

Публикаций: 4

NVIDIA выпустила один ASR-движок на 40 языков — и его можно дообучить

NVIDIA открыла веса Nemotron 3.5 ASR — потоковой модели распознавания речи на 600M параметров, которая покрывает 40 языков одним чекпоинтом и добавляет пунктуацию прямо на выходе. Модель можно дообучить под любой язык, акцент или домен — включая русский и языки СНГ.

Thinking Machines Lab выпускает ИИ, который говорит и слушает одновременно

Стартап Миры Мурати анонсировал полнодуплексную голосовую модель TML-Interaction-Small с задержкой отклика 0,40 секунды — примерно как у живого собеседника. Это принципиально иная архитектура диалога: ИИ не ждёт, пока вы закончите говорить.

Архитектура сначала: как финтех строит голосовых агентов без иллюзий

Команда СВОЙ Тех разобрала реальный путь от сценарных ботов к LLM-ассистентам — и он не похож на красивые слайды. Сначала скучная архитектура, потом осторожно модели.

Grok умеет говорить: xAI обогнала GPT и Gemini по голосу вдвое

xAI открыла API-доступ к grok-voice-think-fast-1.0 — голосовой модели с полноценным дуплексным режимом. На бенчмарке τ-Voice Bench она набрала 67,3% против 35,3% у GPT-realtime-1.5 и 43,8% у Gemini — разрыв почти двукратный.

← Все статьи