2026-07-01 00:02 · 🤖 AI World

OpenAI обвалил стоимость инференса — и это сигнал для всего рынка

По данным The Information, OpenAI сократила расходы на вывод ответов своих моделей больше чем в два раза. В пиковые периоды ChatGPT обслуживался всего несколькими сотнями GPU Nvidia — неожиданно мало для сервиса с сотнями миллионов пользователей.

По данным издания The Information, OpenAI провела глубокую оптимизацию инфраструктуры: стоимость инференса для ChatGPT упала больше чем вдвое. В отдельные периоды нагрузка на бесплатную версию сервиса обслуживалась несколькими сотнями GPU Nvidia — цифра, которая выглядит контринтуитивно на фоне масштаба платформы.

Контекст

Инференс — не обучение модели, а её запуск в продакшне: каждый ответ ChatGPT, каждый вызов API требует вычислительных ресурсов в реальном времени. Именно инференс составляет основную долю операционных расходов любого AI-сервиса, работающего в промышленном масштабе. Для OpenAI — это буквально сотни миллионов запросов в сутки.

Снижение стоимости вдвое при сопоставимом или лучшем качестве — это не итерационный патч, а структурный сдвиг в экономике компании. Подобные результаты достигаются через комбинацию инструментов: квантизацию весов модели, агрессивный батчинг запросов, специализированные аппаратные конфигурации, дистилляцию в более компактные модели и — что важно — интеллектуальную маршрутизацию между разными размерами моделей в зависимости от сложности запроса.

Конкурентный фон задаёт контекст. DeepSeek в начале 2025 года наглядно показал: frontier-уровень возможен при радикально меньших затратах. Anthropic, Google, Meta активно работают над своими инференс-стеками. Ценовая война на AI API идёт уже полтора года. OpenAI реагирует не только на внешнее давление, но и на внутреннее: компания до сих пор генерирует убытки при масштабировании, и каждый доллар, сэкономленный на инференсе, улучшает путь к прибыльности.

Аналитика

Снижение числа GPU до «нескольких сотен» в пиковые моменты — это почти наверняка результат каскадной маршрутизации. Простые запросы обрабатываются лёгкими моделями, сложные — полноразмерными. Именно так работают MoE-архитектуры (Mixture of Experts) и гибридные системы: пользователь получает одинаковый UX, а вычислительная нагрузка распределяется умнее. Экономия здесь системная, не разовая — она масштабируется с ростом числа запросов.

Для рынка это несёт два эффекта. Прямой: OpenAI может снижать цены на API и удерживать бесплатных пользователей без роста капитальных расходов. Косвенный: конкуренты вынуждены двигаться быстрее. Если у лидера рынка себестоимость ответа упала вдвое, у тех, кто не провёл аналогичную оптимизацию, маржа сжимается ещё сильнее.

Долгосрочно дешевле инференс — это топливо для агентной экономики. Агентные пайплайны делают сотни и тысячи вызовов модели за одну задачу. Раньше это было дорого и медленно. При вдвое меньшей стоимости порог рентабельности агентных продуктов падает — значит, больше команд смогут строить реальные B2B-сервисы на этой инфраструктуре без венчурного финансирования.

Кейсы применения в бизнесе

B2B-SaaS стартап. Если вы строите AI-фичу поверх ChatGPT API, снижение инференс-себестоимости — сигнал пересмотреть роутинг прямо сейчас. Внедрите каскадную архитектуру: лёгкие модели для классификации и суммаризации, полноразмерные — только для сложной генерации. Это снижает COGS на AI-функции на 60–80% без потери качества на основных сценариях. Пересчитайте unit economics — возможно, ваша модель уже прибыльна при текущих объёмах.

Корпорация с legacy. Для крупных компаний с внутренними AI-ассистентами ключевой вопрос — стоимость масштабирования. Если 1000 сотрудников используют AI-инструмент и себестоимость вызова падает, можно расширить охват без роста бюджета. Либо зафиксировать бюджет и поднять качество: перевести больше запросов на более мощные модели за ту же цену. Оба пути реальны — нужно только пересчитать.

SMB и локальный бизнес в КР и СНГ. Для небольших команд прямой эффект — снижение ценового барьера на AI-инструменты. Автоматизация клиентского сервиса, генерация документов, обработка входящих запросов — всё это становится экономически обоснованным при более низкой стоимости инференса. Если раньше API-бюджет отпугивал, сейчас стоит вернуться к расчётам.

Кейсы в личной жизни

Разработчик. Дешевле инференс — дешевле прототипирование агентных систем. Если вы экспериментируете с агентными пайплайнами или строите что-то поверх LLM — расходы на тестирование падают. Хороший момент запустить то, что откладывали из-за стоимости итераций.

Контент-мейкер. Оптимизация инференса влияет и на задержку, и на доступность бесплатного тира. Используйте ChatGPT для: проработки структуры материалов, быстрой генерации нескольких вариантов заголовков, анализа трендов и аудитории. Бесплатный tier теперь обходится OpenAI дешевле — это, как правило, предшествует расширению лимитов.

Студент и фрилансер. Тренд указывает: в горизонте нескольких месяцев AI-инструменты станут ещё доступнее. Уже сейчас стоит инвестировать время в освоение промптинга, работу с API, базовую автоматизацию через Python. Это навыки с прямой корреляцией с доходом — особенно в сфере AI-разработки, где рынок труда в КР и СНГ ещё не насыщен.

Как применить сегодня

Проверьте актуальный прайс-лист OpenAI API и сравните с расходами полгода назад — снижение себестоимости обычно транслируется в цены с задержкой в несколько недель.
Внедрите маршрутизацию запросов: лёгкая модель для классификации и коротких ответов, полноразмерная — для генерации и сложных рассуждений. Экономия на простых операциях может быть существенной.
Для агентных систем: пересчитайте рентабельность при текущих ценах. То, что было нерентабельно полгода назад, может стать работающим бизнес-кейсом сегодня.
Следите за ответными шагами DeepSeek, Qwen и других OSS-альтернатив — ценовая гонка в инференсе только ускоряется, и ближайшие месяцы принесут новые снижения.
Если вы на бесплатном тире ChatGPT — отслеживайте изменения в лимитах. Снижение операционных расходов на стороне OpenAI исторически предшествовало улучшениям для бесплатных пользователей.

#OpenAI #инференс #ChatGPT #LLM #AI инфраструктура

← Все статьи