#inference

Публикаций: 8

2026-07-21 12:02 · 🤖 AI World

Frozen v2: Google запекает Gemini прямо в кремний ради 10-кратного роста эффективности

Google разрабатывает серверный чип Frozen v2, в котором архитектура Gemini встроена непосредственно в кремний. По данным внутренних источников, он может быть в 6–10 раз эффективнее нынешних TPU — и должен появиться к 2028 году.

2026-07-14 02:30 · 🤖 AI World

Почему LLM галлюцинирует: виновата не модель, а управление

Исследование CogniConsole на arXiv доказывает: большинство сбоев LLM — не вопрос мощности модели. Виноват слой, который управляет инференсом — как сформулирована задача и что попало в контекст.

2026-07-11 00:03 · 🤖 AI World

GPT-5.6 Sol: пять уровней мышления и когда включать каждый

GPT-5.6 Sol вышел с пятью уровнями «глубины рассуждений» — от лёгкого Light до тяжёлого xhigh — плюс режимы Max и Ultra с параллельными суб-агентами. Сотрудник OpenAI Вайбхав Сриваставе дал простое правило: стартуй снизу и повышай уровень только по необходимости.

2026-07-09 22:07 · 🤖 AI World

NVIDIA Puzzle: 120B-модель сжата до 75B с удвоением серверного throughput

NVIDIA выпустила Nemotron-Labs-3-Puzzle-75B-A9B — сжатый вариант Nemotron-3-Super, который на одном узле 8×B200 даёт в 2.03× больший серверный throughput при той же пользовательской скорости. На одном H100 число одновременных запросов с 1M-токенным контекстом выросло с 1 до 8.

2026-05-30 04:01 · 🤖 AI World

Собрать inference-движок с нуля: C++, CUDA и никакого Python

Проект tiny-vLLM — это одновременно рабочий inference-сервер для Llama 3.2 и курс, который ведёт через каждую строчку кода. Автор строит то, что обычно скрыто за абстракциями фреймворков: от чтения Safetensors до FlashAttention-подобных CUDA-ядер.

2026-05-27 12:01 · 🤖 AI World

Дорогой Claude, дешёвый DeepSeek: когда аутсорс выгоднее frontier

Frontier-лабы поднимают цены быстрее, чем обещали их снизить. Инженер в дешёвой стране + открытая модель уже сегодня бьют GPT или Claude по соотношению цены и результата.

2026-05-25 00:01 · 🤖 AI World

Claude Code за $40 нашёл алгоритм, до которого люди не додумались

Команда исследователей из UMD, Google и Meta позволила Claude Code самостоятельно искать алгоритмы масштабирования тест-тайм вычислений. За 160 минут и $40 агент нашёл алгоритм, который режет compute на 70% без потери точности.

2026-05-24 12:02 · 🤖 AI World

Nemotron Diffusion от NVIDIA: параллельная генерация и скорость в 6× быстрее AR

NVIDIA выпустила семейство диффузионных языковых моделей Nemotron-Labs Diffusion — 3B, 8B и 14B параметров с коммерческой лицензией. Главное отличие от обычных LLM: токены генерируются блоками параллельно и могут исправляться итеративно, а не фиксироваться навсегда.

← Все статьи