2026-06-14 18:02 · 🤖 AI World
Новый бенчмарк SWE-Explore разделил задачу кодового агента на два этапа — поиск нужного места и его исправление. Результат: с файлами агенты справляются, а вот конкретные строки внутри — стабильно теряют.
2026-06-13 18:02 · 🤖 AI World
Anthropic выпустила Claude Fable 5, который набрал 88% на самом сложном уровне бенчмарка FrontierMath — против 75% у GPT-5.5 от OpenAI. Для сравнения: Opus 4.5 в начале 2026 года едва дотягивал до 10% на том же тесте.
2026-06-13 06:02 · 🤖 AI World
Anthropic выпустила Claude Fable 5 — новый лидер рейтинга Artificial Analysis Intelligence Index с результатом 64,9 балла. Прирост над предшественником Opus 4.8 составляет 5,7%, а цена токена выросла вдвое.
2026-06-11 14:03 · 🤖 AI World
Anthropic выпустила Claude Fable 5 — первую модель нового класса Mythos, который позиционируется выше Opus. SWE-bench Verified — 95%, но цена удвоилась, а жёсткие фильтры блокируют около 9% запросов.
2026-06-01 22:01 · 🤖 AI World
Nvidia выпустила Nemotron 3 Ultra — и по данным бенчмарк-платформы Artificial Analysis это сильнейшая открытая языковая модель американского происхождения на сегодняшний день. Только вот лидерство в глобальной гонке открытых моделей по-прежнему у Китая.
2026-05-31 14:01 · 🤖 AI World
Исследователи из Харбинского технологического университета выяснили: топовые AI search agents вроде GPT-5.4 и Kimi K2.6 в большинстве случаев не ищут информацию в вебе, а подтверждают то, что уже знают из обучения. Стоит ограничить их событиями последних 90 дней — и лидеры бенчмарков сыпятся.
2026-05-11 02:01 · 🌐 СНГ (tech/AI)
Главный скептик современного ИИ признал реальность прогресса Anthropic на бенчмарке METR — но тут же переформулировал, что именно прогрессирует. И в этой оговорке спрятан настоящий сдвиг в понимании того, как устроены агенты.
2026-05-09 08:02 · 🌐 СНГ (tech/AI)
DeepSeek V4 Pro заявила об отставании от американских моделей на 3–6 месяцев. NIST провёл независимый аудит на закрытых бенчмарках — и насчитал минимум 8 месяцев.
2026-05-05 04:01 · 🌐 СНГ (tech/AI)
Джек Кларк, сооснователь Anthropic, опубликовал эссе с конкретной ставкой: к концу 2028 года с вероятностью более 60% появится ИИ-система, способная обучить свою следующую версию без участия людей. Это не фантастика — это мозаика из десятков публичных бенчмарков, которые уже сегодня почти насыщены.