#ASR

Публикаций: 2

Microsoft MAI-Transcribe-1.5: час аудио за 15 секунд и WER 2,4%

Microsoft AI выпустила MAI-Transcribe-1.5 — модель распознавания речи с WER 2,4% на Artificial Analysis и скоростью транскрипции часа аудио менее чем за 15 секунд. 43 языка, поддержка отраслевых терминов, доступна в Azure AI Foundry прямо сейчас.

NVIDIA выпустила один ASR-движок на 40 языков — и его можно дообучить

NVIDIA открыла веса Nemotron 3.5 ASR — потоковой модели распознавания речи на 600M параметров, которая покрывает 40 языков одним чекпоинтом и добавляет пунктуацию прямо на выходе. Модель можно дообучить под любой язык, акцент или домен — включая русский и языки СНГ.

← Все статьи