#инференс

Публикаций: 4

2026-07-01 00:02 · 🤖 AI World

OpenAI обвалил стоимость инференса — и это сигнал для всего рынка

По данным The Information, OpenAI сократила расходы на вывод ответов своих моделей больше чем в два раза. В пиковые периоды ChatGPT обслуживался всего несколькими сотнями GPU Nvidia — неожиданно мало для сервиса с сотнями миллионов пользователей.

2026-06-11 02:01 · 🤖 AI World

Google выпустил DiffusionGemma: текст из шума со скоростью 1000 токенов в секунду

Google открыл DiffusionGemma — 26-миллиардную модель, которая генерирует текст через диффузию, а не побуквенно. По данным Nvidia, на одном H100 она выдаёт около 1000 токенов в секунду — примерно в четыре раза быстрее сопоставимых авторегрессионных моделей.

2026-05-22 22:01 · 🤖 AI World

OpenAI тратит $1,22 на каждый заработанный доллар

В первом квартале 2026 года OpenAI заработала около $5,7 млрд — и потеряла $1,22 на каждый из них. Скорректированная операционная маржа: минус 122%. Даже без учёта компенсаций акциями.

2026-05-21 08:02 · 🤖 AI World

10 токенов в секунду: ощути скорость LLM своими глазами

Майк Вирман выпустил браузерный симулятор скорости LLM: HTML-страница наглядно показывает, как выглядит поток токенов от 5 до 800 в секунду. Когда провайдер пишет «30 т/с» — теперь это не абстракция, а конкретное ощущение.

← Все статьи