#голосовой AI

Публикаций: 3

GPT-Realtime-2: голосовой чат с документами прямо в браузере

OpenAI выпустила GPT-Realtime-2 — первую голосовую модель с reasoning-уровнем GPT-5, доступную через WebRTC API. Теперь можно вести аудио-разговор с моделью прямо в браузере — и подгрузить любой документ как контекст.

Google Gemini 3.5 Live Translate: живой голос на 70+ языках без паузы

Google выпустила Gemini 3.5 Live Translate — аудиомодель, которая переводит речь непрерывно, не дожидаясь конца фразы. В Google Meet поддержка языков выросла с 5 до 70+.

Grok умеет говорить: xAI обогнала GPT и Gemini по голосу вдвое

xAI открыла API-доступ к grok-voice-think-fast-1.0 — голосовой модели с полноценным дуплексным режимом. На бенчмарке τ-Voice Bench она набрала 67,3% против 35,3% у GPT-realtime-1.5 и 43,8% у Gemini — разрыв почти двукратный.

← Все статьи