8 мая организация METR опубликовала замеры автономности агентов. Claude Mythos показал горизонт непрерывной работы 16+ часов при 50%-вероятности успеха и 3 часа при 80% — по второму показателю отрыв от ближайшего конкурента двукратный. Гэри Маркус, давний и последовательный критик LLM, прочитал результаты и... не отверг их. Это редкость.
Контекст
METR — некоммерческая лаборатория из Беркли, которая занимается оценкой агентских способностей ИИ. Их методология устроена нестандартно: берут 228 задач в трёх доменах — программирование, машинное обучение, кибербезопасность — и для каждой измеряют, сколько времени тратит эксперт-человек. Потом смотрят, при какой длине задачи модель держит заданный процент успеха. Это не «решил/не решил», а вопрос масштаба автономии.
Оговорка самих авторов важна: задач длиннее 16 часов в наборе всего пять из 228, поэтому точность метрики за этой отметкой падает. Алекс Альберт из Anthropic параллельно выложил собственный график с акцентом на 80%-горизонте, где преимущество Mythos выглядит убедительнее. Обе публикации — из первичных источников, не из пресс-релиза.
Маркус — профессор NYU, автор книги «Rebooting AI», последние несколько лет методично указывает на ненадёжность LLM, их неспособность к устойчивому рассуждению и на риски хайпа. Его похвала — даже частичная — заметна именно потому, что он не меняет позицию под давлением.
Аналитика
Маркус согласился с тем, что прогресс на графике реальный. Но дальше аргумент поворачивает: по его мнению, большая часть прироста идёт не от самой модели, а от агентских обвязок — Claude Code, Codex и им подобных. Его формулировка дословно:
«Это оправдание нейросимвольного подхода — но не доказательство, что сами LLM можно бесконечно масштабировать».Иными словами, он видит в связке «языковая модель + внешние инструменты» именно те нейросимволические системы, о которых говорит больше десяти лет.
Это смещает единицу сравнения. Если прирост автономии приходит от стека, а не от весов модели — тогда гонка «чья модель умнее» частично теряет смысл. Реальная конкуренция разворачивается в слое инструментов, памяти, управления контекстом и верификации. Anthropic это, судя по инвестициям в Claude Code, понимает. OpenAI — с Codex и агентскими фичами — тоже.
Для рынка это означает следующее: компании, которые сейчас строят агентские продукты поверх базовых моделей, не просто «используют ИИ» — они формируют тот самый обвязочный слой, который определяет реальную производительность. Качество оркестрации, инструментов и feedback-loop становится конкурентным преимуществом не меньше, чем выбор базовой модели.
Кейсы применения в бизнесе
B2B-SaaS стартап с небольшой командой разработки. Горизонт автономности 3 часа при 80% надёжности — это уже достаточно, чтобы делегировать агенту полный цикл: написание кода, тесты, исправление по ошибкам, PR. Конкретно: настроить Claude Code с доступом к репозиторию и CI — и запускать на задачах типа «добавить эндпоинт + миграцию + тест». Экономия — несколько часов разработчика в день.
Корпорация с legacy-стеком. METR-метрика с доменом кибербезопасности напрямую указывает на кейс: аудит кода и поиск уязвимостей. Агент, работающий автономно несколько часов, может прогнать статический анализ, сформировать отчёт с приоритизацией и предложить патчи — без участия дорогого внешнего пентестера на рутинных проверках.
SMB / локальный бизнес в КР и СНГ. Для команд без выделенных разработчиков — сценарий автоматизации операций: агент обрабатывает заявки, генерирует документы, пишет скрипты интеграции между сервисами. Порог входа сейчас — Claude Code с OAuth-подключением и базовый набор инструментов. Ни дата-сайентиста, ни MLops не нужно.
Кейсы в личной жизни
Разработчик. Длинные задачи — рефакторинг модуля, написание документации по базе кода, подготовка к ревью — теперь реально делегируются без надзора. Попробуй запустить агента на задаче, которую ты обычно откладываешь из-за монотонности, и проверь результат через час.
Контент-мейкер или фрилансер. Агентская обвязка полезна не только в коде. Связка «модель + инструменты» хорошо работает для исследовательских задач: собрать источники, структурировать, написать черновик, проверить факты через поиск. Это уже 2-3 часа работы, которые агент берёт на себя.
Студент или аналитик. Тезис Маркуса про нейросимволику — повод пересмотреть, как вы используете инструменты. Комбинация LLM + калькулятор/код/поиск надёжнее, чем «просто спросить». Строй запросы так, чтобы модель считала через код, а не в голове — это прямо сейчас доступно в Claude и ChatGPT.
Как применить сегодня
- Открой METR-публикацию от 8 мая и посмотри на графики сам — там видно, где заканчивается надёжность данных. Критическое чтение бенчмарков важнее, чем доверие хедлайнам.
- Если используешь Claude Code — попробуй задачу с явным горизонтом 1-2 часа работы: дай агенту полный контекст, инструменты и не вмешивайся. Замерь, сколько тебе самому потребовалось бы.
- Оцени свой стек агента: какие инструменты есть (поиск, код, память, верификация)? Часто именно отсутствие инструментов, а не качество модели — причина провала на длинных задачах.
- Прочитай аргумент Маркуса о нейросимволике — даже если не соглашаешься. Его точка зрения: «модель + инструменты» ≠ «более умная модель». Это меняет то, на что стоит тратить бюджет при построении AI-продукта.
- Следи за METR как источником — их методология честнее большинства корпоративных бенчмарков, потому что измеряет реальное время задачи, а не синтетику.