#бенчмарки

Публикаций: 23

2026-07-27 20:03 · 🤖 AI World

Когда агент дороже человека: METR считает в долларах

Организация METR ввела метрику «горизонт расходов» — способ посчитать, при каких задачах AI-агент обходится дороже человека. Первые тесты на NanoGPT speedrun оказались неутешительными.

2026-07-25 02:02 · 🤖 AI World

Claude Opus 5: мощность Fable 5 вполовину дешевле

Anthropic выпустила Claude Opus 5 — новый флагман с ценой токена вдвое ниже Fable 5. На бенчмарке ARC-AGI-3, проверяющем решение принципиально новых задач, Opus 5 набрал 30.2% — почти в четыре раза выше GPT-5.6 Sol.

2026-07-23 06:06 · 🤖 AI World

Читерят ли AI-лабы с бенчмарками: тест на пеликане

Исследователь Дилан Кастильо провёл масштабный эксперимент, чтобы выяснить, не натренированы ли топовые AI-модели специально рисовать пеликана на велосипеде лучше всего остального. Вопрос кажется абсурдным — до тех пор, пока не понимаешь, что стоит за ним.

2026-07-22 06:04 · 🤖 AI World

GPT-5.6 нарисовал Мону Лизу лучше Claude Fable — и стоит в 20 раз меньше

TryAI дали четырём топ-моделям одинаковый набор инструментов цветного карандаша и чистый холст — воспроизвести Мону Лизу и «Звёздную ночь» Ван Гога с нуля. GPT-5.6 Sol выиграл по качеству при $7.74 за семь рисунков; Claude Fable 5 потратил $160 и проиграл.

2026-07-17 04:04 · 🤖 AI World

Kimi K3: первый открытый 3T-LLM с ценником уровня Sonnet

Moonshot AI выпустила Kimi K3 — 2.8 триллиона параметров и первый «открытый 3T-класс» по заявлению лаборатории, с ценником $3/$15 за миллион токенов. По независимым данным Artificial Analysis, модель занимает второе место по качеству среди всех доступных LLM и уже возглавляет Arena.ai в категории Frontend Code, обходя Claude Fable 5.

2026-07-14 02:38 · 🤖 AI World

Новый тест сломал AI-агентов: топ-модель справилась с 15% задач

Команда из 13 исследователей выпустила Long-Horizon-Terminal-Bench — бенчмарк, где AI-агентам дают задачи на несколько часов непрерывной работы в терминале. Из 15 протестированных фронтирных моделей лучшая справилась лишь с 15,2% при частичном зачёте, а среднее по всем — 1,7% при идеальном выполнении.

2026-07-11 18:11 · 🤖 AI World

Meta Muse Spark 1.1: галлюцинации упали вдвое, код лучше GLM-5.2

Meta выпустила Muse Spark 1.1 — и модель показала сразу два значимых результата: уровень галлюцинаций рухнул с 73 до 38%, а в бенчмарке по коду модель обходит GLM-5.2 от Zhipu AI при стоимости $0.26 за задачу. За три месяца — плюс 8 очков на Artificial Analysis Intelligence Index.

2026-07-10 16:03 · 🤖 AI World

Sol против Fable 5: один балл разницы, тройной разрыв в цене

GPT-5.6 Sol набирает 59 баллов на Artificial Analysis Intelligence Index — на один балл меньше флагмана Anthropic Fable 5 — и стоит в три раза дешевле. В агентном программировании Sol обходит всех конкурентов, превращая разницу в один балл в серьёзный аргумент для пересмотра выбора модели.

2026-07-09 20:02 · 🤖 AI World

SWE-Bench сломан на 30%: OpenAI отзывает доверие к главному тесту кодинга

OpenAI проверил SWE-Bench Pro — де-факто стандарт для измерения навыков AI в программировании — и нашёл серьёзный изъян: около 30% задач оказались некорректными. Компания публично отозвала своё прежнее одобрение бенчмарка, поставив под сомнение достоверность многочисленных рейтингов и сравнений моделей.

2026-07-01 02:04 · 🤖 AI World

Claude Sonnet 5 бьёт Opus 4.8 на тестах знаний за цену Sonnet

Anthropic выпустила Claude Sonnet 5: модель превзошла Sonnet 4.6 по всем бенчмаркам и на тесте знаниевой работы GDPval-AA v2 набрала 1 618 очков, обойдя более дорогой Opus 4.8. Граница между средним и премиум-уровнем LLM стремительно размывается.

2026-06-28 18:02 · 🤖 AI World

CEO-тест: простая эвристика обыграла почти все LLM в симуляции стартапа

Принстонский университет запустил CEO-Bench — симулятор, где AI-агенты управляют вымышленной software-компанией 500 условных дней. Большинство моделей разоряются, а детерминированная программа без единого нейрона обошла почти всех.

2026-06-19 20:01 · 🤖 AI World

Новый бенчмарк: ИИ справляется лишь с 3% реальных рабочих задач

Исследователи опубликовали бенчмарк, имитирующий настоящую офисную работу — анализ, исследования, многошаговые решения. Лучшая из протестированных моделей полностью решила 3% задач.

2026-06-18 10:01 · 🤖 AI World

Zhipu GLM-5.2: опенсорс в 1% от Claude на кодинг-марафонах

Китайская лаборатория Zhipu AI выпустила GLM-5.2 под MIT-лицензией с контекстным окном в миллион токенов. На бенчмарке FrontierSWE — часовые и многочасовые задачи программирования — модель отстаёт от Claude Opus 4.8 всего на один процентный пункт.

2026-06-18 06:02 · 🤖 AI World

Grok против Claude: кто победит, если ИИ сыграет в королевскую битву

Разработчик из OpenRouter бросил 11 языковых моделей в 2D-королевскую битву и заставил их сыграть 30 матчей подряд. Итог: самая дешёвая модель по cost-per-win обошла самую «умную» в 27 раз — и раскрыла кое-что важное про то, как работает выравнивание моделей.

2026-06-14 18:02 · 🤖 AI World

AI-агенты находят файл — но промахиваются мимо нужных строк

Новый бенчмарк SWE-Explore разделил задачу кодового агента на два этапа — поиск нужного места и его исправление. Результат: с файлами агенты справляются, а вот конкретные строки внутри — стабильно теряют.

2026-06-13 18:02 · 🤖 AI World

Claude Fable 5 обогнал GPT-5.5 на 13 пунктов по сложнейшей математике

Anthropic выпустила Claude Fable 5, который набрал 88% на самом сложном уровне бенчмарка FrontierMath — против 75% у GPT-5.5 от OpenAI. Для сравнения: Opus 4.5 в начале 2026 года едва дотягивал до 10% на том же тесте.

2026-06-13 06:02 · 🤖 AI World

Claude Fable 5 бьёт бенчмарки, но стоит вдвое дороже за +5,7%

Anthropic выпустила Claude Fable 5 — новый лидер рейтинга Artificial Analysis Intelligence Index с результатом 64,9 балла. Прирост над предшественником Opus 4.8 составляет 5,7%, а цена токена выросла вдвое.

2026-06-11 14:03 · 🤖 AI World

Claude Fable 5: первая Mythos-модель стоит вдвое дороже и режет каждый десятый запрос

Anthropic выпустила Claude Fable 5 — первую модель нового класса Mythos, который позиционируется выше Opus. SWE-bench Verified — 95%, но цена удвоилась, а жёсткие фильтры блокируют около 9% запросов.

2026-06-01 22:01 · 🤖 AI World

Nvidia выпустила сильнейшую открытую модель США — но Китай по-прежнему впереди

Nvidia выпустила Nemotron 3 Ultra — и по данным бенчмарк-платформы Artificial Analysis это сильнейшая открытая языковая модель американского происхождения на сегодняшний день. Только вот лидерство в глобальной гонке открытых моделей по-прежнему у Китая.

2026-05-31 14:01 · 🤖 AI World

AI-агенты поиска притворяются, что исследуют — а сами вспоминают

Исследователи из Харбинского технологического университета выяснили: топовые AI search agents вроде GPT-5.4 и Kimi K2.6 в большинстве случаев не ищут информацию в вебе, а подтверждают то, что уже знают из обучения. Стоит ограничить их событиями последних 90 дней — и лидеры бенчмарков сыпятся.

2026-05-11 02:01 · 🌐 СНГ (tech/AI)

Гэри Маркус почти похвалил Claude Mythos — и это важнее, чем кажется

Главный скептик современного ИИ признал реальность прогресса Anthropic на бенчмарке METR — но тут же переформулировал, что именно прогрессирует. И в этой оговорке спрятан настоящий сдвиг в понимании того, как устроены агенты.

2026-05-09 08:02 · 🌐 СНГ (tech/AI)

DeepSeek сам выбирал тесты. NIST выбрал другие — и разрыв вырос вдвое

DeepSeek V4 Pro заявила об отставании от американских моделей на 3–6 месяцев. NIST провёл независимый аудит на закрытых бенчмарках — и насчитал минимум 8 месяцев.

2026-05-05 04:01 · 🌐 СНГ (tech/AI)

Самообучающийся ИИ к 2028: Anthropic называет вероятность 60%

Джек Кларк, сооснователь Anthropic, опубликовал эссе с конкретной ставкой: к концу 2028 года с вероятностью более 60% появится ИИ-система, способная обучить свою следующую версию без участия людей. Это не фантастика — это мозаика из десятков публичных бенчмарков, которые уже сегодня почти насыщены.

← Все статьи