2026-06-13 10:01 · 🤖 AI World

GPT-Realtime-2: голосовой чат с документами прямо в браузере

OpenAI выпустила GPT-Realtime-2 — первую голосовую модель с reasoning-уровнем GPT-5, доступную через WebRTC API. Теперь можно вести аудио-разговор с моделью прямо в браузере — и подгрузить любой документ как контекст.

В мае 2026 года OpenAI добавила в свой WebRTC API новую модель — GPT-Realtime-2. Компания позиционирует её как «первую голосовую модель с reasoning-классом GPT-5». Дата среза знаний — 30 сентября 2024 года. Разработчик и исследователь Саймон Уиллисон, который ещё в декабре 2024-го собрал playground для WebRTC Audio API, обновил свой инструмент: теперь в нём можно выбрать GPT-Realtime-2 и вставить произвольный блок текста как документный контекст — после чего вести голосовой разговор об этом документе прямо в браузере.

Контекст

WebRTC — протокол для передачи аудио и видео в реальном времени через браузер без плагинов. OpenAI подключила к нему свои realtime-модели в конце 2024 года, открыв разработчикам возможность строить голосовые интерфейсы без серверного посредника: браузер напрямую говорит с моделью. Это принципиально отличается от классической схемы «речь → STT → LLM → TTS → речь» с её накопленными задержками на каждом переходе.

GPT-Realtime-2 — следующий шаг: вместо того чтобы просто быстро отвечать, модель способна рассуждать. Уровень GPT-5-class reasoning в голосовом контексте означает, что она не просто транскрибирует и синтезирует — она выстраивает логику ответа так же, как это делают текстовые reasoning-модели. При этом модель пока не появилась в мобильном приложении ChatGPT — доступ только через API.

Документный контекст — ключевое дополнение в обновлённом playground. Раньше голосовые модели работали «в пустоте»: можно было спросить что-то общее, но не обсудить конкретный договор, спецификацию или отчёт. Теперь пользователь вставляет текст — и разговаривает с ним голосом. Это меняет сценарий с «голосовой поиск» на «голосовой анализ».

Аналитика

Тренд понятен: голосовые интерфейсы движутся туда, где сейчас находятся текстовые. Год назад RAG для голоса выглядел экзотикой — сегодня это базовая ожидаемая фича. GPT-Realtime-2 делает шаг, который текстовые модели сделали раньше: грounding на конкретный документ, а не ответы из общих весов. Для бизнеса это означает, что голосовые ассистенты наконец перестают быть игрушкой и становятся рабочим инструментом — они могут работать с реальными данными компании.

Важно понимать архитектурный сдвиг: WebRTC убирает серверный слой обработки речи. Задержка падает, инфраструктура упрощается, а разработчик получает прямой контроль над тем, что слышит и говорит модель. Для agentic-систем, где голос — один из каналов ввода наравне с текстом и инструментами, это критично: агент должен реагировать мгновенно, а не ждать три пайплайн-хопа.

Тот факт, что GPT-Realtime-2 до сих пор не появился в мобильном приложении, — сигнал о приоритетах OpenAI. Они открывают инструмент для разработчиков раньше, чем для конечных пользователей. Это либо стратегия «сначала API-экосистема», либо осторожность с масштабированием вычислительно дорогой reasoning-модели в реальном времени.

Кейсы применения в бизнесе

B2B-SaaS стартап. Если у вас есть документация, база знаний или changelog — можно прямо сейчас встроить голосовой ассистент в onboarding. Пользователь вслух задаёт вопросы по продукту, модель отвечает, опираясь на вставленный контекст. Не нужен отдельный fine-tuning — достаточно актуального markdown-файла с доками. Эффект: снижение нагрузки на support в первые 30 дней жизни клиента.

Корпорация с legacy. Представьте аудитора, который разговаривает голосом с 80-страничным финансовым отчётом. Вместо ctrl+F и чтения — голосовой диалог: «Что изменилось в статье OPEX по сравнению с прошлым кварталом?» GPT-Realtime-2 с документным контекстом закрывает этот сценарий уже сейчас через браузерный playground или кастомную интеграцию через API.

SMB и локальный бизнес в КР/СНГ. Небольшая компания без IT-отдела может развернуть голосовой ассистент для своих сотрудников: вставил прайс-лист или регламент — и менеджеры могут вслух уточнять условия прямо на встрече с клиентом. Никакого кода, только браузер и API-ключ.

Кейсы в личной жизни

Разработчик. Читаешь сложный RFC или чужой codebase? Вставь фрагмент в контекст и проговори вопросы вслух — иногда это быстрее, чем формулировать запрос текстом. Особенно полезно когда руки заняты или нужно думать вслух.

Контент-мейкер и студент. Вставь статью, главу учебника или транскрипт видео — и обсуди голосом: что главное, какие аргументы слабые, как это связано с другими темами. Это не просто «спросить ChatGPT» — это разговор, который помогает структурировать мысль через вербализацию.

Фрилансер и консультант. Перед звонком с клиентом вставь его бриф или техзадание — и порепетируй разговор голосом с моделью. Она ответит на вопросы от лица «клиента», поможет найти слабые места в твоём предложении и предугадать возражения.

Как применить сегодня

Открой playground Саймона Уиллисона (он открытый, код на GitHub под его именем) или собери собственный за час по документации OpenAI Realtime API — там есть официальные примеры для WebRTC.
Выбери модель GPT-Realtime-2 вместо стандартной — это ключевое переключение, дающее reasoning-уровень ответов.
Подготовь документный контекст: вырежи нужный текст (договор, спецификация, FAQ, глава книги) и вставь в поле контекста перед стартом сессии.
Для продакшн-интеграции изучи официальную документацию OpenAI по Realtime API + WebRTC — там описан формат сессий, токены аутентификации и ограничения по длине контекста.
Следи за появлением GPT-Realtime-2 в мобильном приложении — как только это случится, порог входа для конечных пользователей упадёт до нуля.

#OpenAI #голосовой AI #WebRTC #GPT-Realtime-2 #agentic

← Все статьи