2026-05-05 04:01 · 🌐 СНГ (tech/AI)

Самообучающийся ИИ к 2028: Anthropic называет вероятность 60%

Джек Кларк, сооснователь Anthropic, опубликовал эссе с конкретной ставкой: к концу 2028 года с вероятностью более 60% появится ИИ-система, способная обучить свою следующую версию без участия людей. Это не фантастика — это мозаика из десятков публичных бенчмарков, которые уже сегодня почти насыщены.

Джек Кларк, сооснователь Anthropic и автор рассылки Import AI, выпустил эссе с прогнозом, который трудно проигнорировать. Вероятность появления «no-human-involved AI R&D» — системы, которая автономно создаёт своего преемника — он оценивает в 60%+ к концу 2028 года и в 30% к концу 2027-го. Главное: прогноз построен не на инсайде Anthropic, а на публичных данных — arXiv, bioRxiv, NBER и продуктовых релизах фронтирных компаний.

Контекст

Кларк — один из архитекторов современного ИИ-safety-движения. Он покинул OpenAI в 2021 году вместе с Дарио Амодеи и другими, чтобы основать Anthropic с явным фокусом на безопасность моделей. Эссе — не корпоративный анонс и не маркетинг. Это личная интеллектуальная ставка с цифрами и мотивацией.

Термин «no-human-involved AI R&D» означает простую вещь: модель достаточно мощная, чтобы пройти полный цикл разработки ИИ — от гипотезы до обученного преемника — без человека в петле. Именно это Кларк называет «переходом Рубикона»:

«Я не знаю, как уложить это в голове. Если это случится, мы пересечём Рубикон в почти невозможное для прогнозирования будущее».

Параллельно индустрия открыто декларирует эту же цель: OpenAI планирует «автономного ИИ-стажера» к сентябрю 2026 года, Anthropic публикует работы по автоматизированным исследователям alignment, стартап Recursive Superintelligence поднял $500 млн именно под задачу рекурсивного самоулучшения.

Аналитика

Кларк сознательно не делает ставку на одну метрику. Он собирает мозаику: SWE-Bench (решение реальных GitHub-задач) показал рост с ~2% у Claude 2 в 2023 году до 93,9% у Claude Mythos Preview в 2026-м — бенчмарк фактически насыщен. Горизонт автономной работы по METR: 30 секунд у GPT-3.5 в 2022-м, 4 минуты у GPT-4 в 2023-м, 40 минут у o1 в 2024-м, ~6 часов у GPT 5.2 (High) в 2025-м, ~12 часов у Opus 4.6 в 2026-м.

Особенно показательны бенчмарки, напрямую связанные с автоматизацией ИИ-исследований. CORE-Bench — воспроизведение результатов научных статей: 21,5% у GPT-4o в сентябре 2024-го, 95,5% у Opus 4.5 в декабре 2025-го — один из авторов публично объявил задачу решённой. MLE-Bench — автономное участие в Kaggle-соревнованиях: 16,9% у o1 в октябре 2024-го, 64,4% у Gemini 3 в феврале 2026-го. Внутренний бенчмарк Anthropic на оптимизацию CPU-only LLM: Opus 4 ускорял базовый код в 2,9× в мае 2025-го, а Claude Mythos Preview — уже в 52× через год. Человеку для результата в 4× нужно, по оценке Anthropic, 4–8 часов работы.

Главный логический ход: Кларк оспаривает тезис, что самообучение требует творческих прорывов уровня изобретения трансформера. Прогресс в ИИ — это преимущественно методичная инженерия: масштабирование, отладка, перебор параметров. Именно это модели уже умеют хорошо. Он цитирует Эдисона: «Гений — это 1% вдохновения и 99% пота». Редкие признаки творчества у моделей — задачи Эрдёша, решённые GPT-5.4 Pro и системой Aletheia на базе Gemini, математические доказательства с инструментами Google DeepMind — Кларк фиксирует, но считает пока недостаточными для трансформирующего эффекта.

Кейсы применения в бизнесе

B2B-SaaS стартап: если горизонт автономной работы агента уже 12 часов, это значит — агент может самостоятельно закрыть спринт. Прямо сейчас стоит запустить пилот: поставить Claude или GPT на задачи уровня junior-разработчика (рефакторинг, написание тестов, код-ревью), замерить процент задач, закрытых без правок человека. Целевой показатель — 40–60% автономного закрытия в течение 6 месяцев. Это реальная экономия на найме.

Корпорация с legacy: для компаний с большим объёмом документации и внутренних инструкций ключевой сценарий — автоматизация внутренних исследований. Агент на базе LLM с RAG по внутренним данным уже сегодня может заменить аналитика на задачах типа «найди прецедент», «собери отчёт по теме», «сравни 5 поставщиков». Горизонт рос экспоненциально, и то, что сегодня требует 4–8 часов аналитика, к концу 2026-го агент будет делать за час.

SMB и локальный бизнес в КР/СНГ: для малого бизнеса самый доступный вход — автоматизация контента и клиентской поддержки. Агент, обученный на базе знаний компании, уже закрывает до 70–80% типовых запросов без человека. В контексте прогноза Кларка: инструменты, которые сегодня выглядят как «умный чат-бот», через 2–3 года станут полноценными операционными агентами. Начинать внедрять стоит сейчас, пока конкуренты ещё не начали.

Кейсы в личной жизни

Разработчик: бенчмарк SWE-Bench насыщен — агент справляется с реальными GitHub-задачами почти на уровне сениора. Попробуйте передать агенту задачу целиком: не «напиши функцию», а «возьми этот issue, реши его, напиши тест, сделай PR». Измерьте, сколько правок вам потребуется. Результаты могут удивить.

Исследователь или студент: CORE-Bench, проверяющий воспроизведение научных результатов, достиг 95,5%. Это означает, что агент может самостоятельно воспроизвести методологию из статьи и адаптировать её под ваши данные. Сценарий: дайте Claude статью с arXiv и попросите воспроизвести эксперимент — с кодом, объяснением и интерпретацией результатов.

Контент-мейкер: горизонт автономной работы в 12 часов — это уже уровень, при котором агент может самостоятельно подготовить редакционный план на месяц, написать черновики, отобрать иллюстрации, адаптировать под разные платформы. Попробуйте поставить агенту задачу «подготовь контент-план на 30 дней для моей темы» — и посмотрите, насколько далеко он уйдёт без вашего вмешательства.

Как применить сегодня

Запустите агентный эксперимент: возьмите реальную рабочую задачу на 4–8 часов и поставьте её агенту целиком. Не подсказывайте. Зафиксируйте, где он останавливается — это ваш текущий «горизонт автономии».
Следите за бенчмарком METR Task Length и MLE-Bench — они дают самый честный сигнал о реальных возможностях моделей, без маркетинга.
Прочитайте эссе Кларка в Import AI: там детальный разбор каждого бенчмарка с источниками — это лучший текущий компас для понимания, где находится граница.
Оцените, какие задачи в вашей команде — это «99% пота»: методичный перебор, масштабирование, параметрическая отладка. Именно их стоит автоматизировать первыми — модели уже сильны в этом.
Если вы строите AI-продукт: встройте PostTrainBench-логику в свою оценку — проверяйте, может ли ваш агент улучшать собственные подсказки и промпты без человека. Это станет ключевой метрикой уже в 2026–2027 году.

#Anthropic #AGI #самообучение #бенчмарки #AI-агенты

← Все статьи