#бенчмарки

Публикаций: 9

AI-агенты находят файл — но промахиваются мимо нужных строк

Новый бенчмарк SWE-Explore разделил задачу кодового агента на два этапа — поиск нужного места и его исправление. Результат: с файлами агенты справляются, а вот конкретные строки внутри — стабильно теряют.

Claude Fable 5 обогнал GPT-5.5 на 13 пунктов по сложнейшей математике

Anthropic выпустила Claude Fable 5, который набрал 88% на самом сложном уровне бенчмарка FrontierMath — против 75% у GPT-5.5 от OpenAI. Для сравнения: Opus 4.5 в начале 2026 года едва дотягивал до 10% на том же тесте.

Claude Fable 5 бьёт бенчмарки, но стоит вдвое дороже за +5,7%

Anthropic выпустила Claude Fable 5 — новый лидер рейтинга Artificial Analysis Intelligence Index с результатом 64,9 балла. Прирост над предшественником Opus 4.8 составляет 5,7%, а цена токена выросла вдвое.

Claude Fable 5: первая Mythos-модель стоит вдвое дороже и режет каждый десятый запрос

Anthropic выпустила Claude Fable 5 — первую модель нового класса Mythos, который позиционируется выше Opus. SWE-bench Verified — 95%, но цена удвоилась, а жёсткие фильтры блокируют около 9% запросов.

Nvidia выпустила сильнейшую открытую модель США — но Китай по-прежнему впереди

Nvidia выпустила Nemotron 3 Ultra — и по данным бенчмарк-платформы Artificial Analysis это сильнейшая открытая языковая модель американского происхождения на сегодняшний день. Только вот лидерство в глобальной гонке открытых моделей по-прежнему у Китая.

AI-агенты поиска притворяются, что исследуют — а сами вспоминают

Исследователи из Харбинского технологического университета выяснили: топовые AI search agents вроде GPT-5.4 и Kimi K2.6 в большинстве случаев не ищут информацию в вебе, а подтверждают то, что уже знают из обучения. Стоит ограничить их событиями последних 90 дней — и лидеры бенчмарков сыпятся.

Гэри Маркус почти похвалил Claude Mythos — и это важнее, чем кажется

Главный скептик современного ИИ признал реальность прогресса Anthropic на бенчмарке METR — но тут же переформулировал, что именно прогрессирует. И в этой оговорке спрятан настоящий сдвиг в понимании того, как устроены агенты.

DeepSeek сам выбирал тесты. NIST выбрал другие — и разрыв вырос вдвое

DeepSeek V4 Pro заявила об отставании от американских моделей на 3–6 месяцев. NIST провёл независимый аудит на закрытых бенчмарках — и насчитал минимум 8 месяцев.

Самообучающийся ИИ к 2028: Anthropic называет вероятность 60%

Джек Кларк, сооснователь Anthropic, опубликовал эссе с конкретной ставкой: к концу 2028 года с вероятностью более 60% появится ИИ-система, способная обучить свою следующую версию без участия людей. Это не фантастика — это мозаика из десятков публичных бенчмарков, которые уже сегодня почти насыщены.

← Все статьи