2026-06-13 18:02 · 🤖 AI World

Claude Fable 5 обогнал GPT-5.5 на 13 пунктов по сложнейшей математике

Anthropic выпустила Claude Fable 5, который набрал 88% на самом сложном уровне бенчмарка FrontierMath — против 75% у GPT-5.5 от OpenAI. Для сравнения: Opus 4.5 в начале 2026 года едва дотягивал до 10% на том же тесте.

Anthropic представила Claude Fable 5, и он сразу переписал таблицу лидеров по математике: 88% точности на самом сложном уровне FrontierMath против 75% у GPT-5.5 от OpenAI. Разрыв — 13 процентных пунктов. Контрольная точка: начало 2026 года, когда Opus 4.5 не преодолевал и 10% на том же уровне. Скачок за несколько месяцев — почти девятикратный.

Контекст

FrontierMath — бенчмарк от Epoch AI, специально разработанный для проверки математических способностей на уровне, недоступном для стандартных тестов. Его верхний уровень включает задачи, которые могут поставить в тупик профессионального математика: нестандартные доказательства, задачи на стыке нескольких разделов математики, комбинаторные задачи с открытыми подходами. До появления последнего поколения моделей этот уровень оставался практически непробиваемым для ИИ.

Гонка между Anthropic и OpenAI давно вышла за рамки чат-ботов. Обе компании инвестируют в математические рассуждения как прокси более глубоких способностей: планирования, верификации выводов, работы с абстракциями. Компания, чья модель точнее рассуждает — скорее всего выпустит более надёжные агентские системы.

Разрыв в 13 пунктов на самом сложном уровне теста — не статистический шум. На лёгких уровнях разница между сильными моделями обычно стирается. Хардкорный тир обнажает реальную дистанцию.

Аналитика

Математика — индикатор, а не самоцель. Точность на FrontierMath прямо коррелирует с качеством рассуждений в агентских сценариях: финансовое моделирование, научные вычисления, сложная логика в code generation, верификация шагов в многоэтапных задачах. Модель, способная решать задачи уровня докторантуры, с высокой вероятностью надёжнее справится с цепочками рассуждений в production.

Скорость улучшения поражает: от менее 10% до 88% за несколько месяцев внутри одной линейки Anthropic. Это не обычный scaling — это признак архитектурных или методологических изменений в training pipeline. Возможно, речь о новых данных, прокачке через верифицированные математические решения, или о цепочках мышления с пошаговой проверкой. Anthropic пока не раскрывала детали.

Для рынка это означает конкретное давление: нишевые провайдеры «специализированных математических моделей» сталкиваются с конкуренцией от общих LLM, которые уже бьют их на их собственном поле. Компании, строящие продукты на узких вертикальных моделях для науки или инженерии, должны внимательно пересмотреть свои технологические ставки.

Кейсы применения в бизнесе

B2B-SaaS стартап (финтех, аналитика): если вы строите продукт с автоматическими расчётами, прогнозированием или финансовой верификацией — переход на Claude Fable 5 как reasoning-движок может снизить количество ошибок в сложных вычислениях. Важно тестировать на реальных задачах вашего домена: бенчмарки не всегда переносятся один к одному на конкретную нишу.

Корпорация с legacy: крупные компании с аналитическими отделами — банки, страховщики, логистика — могут использовать сильные математические модели для автоматизации аудита расчётов, верификации финансовых отчётов, поиска аномалий в данных. Интеграция через API с чётким human-review на выходе — разумный старт без переписывания инфраструктуры.

SMB и локальный бизнес в КР/СНГ: бухгалтер или налоговый консультант, использующий LLM для проверки расчётов — конкретный кейс. Модель с высокой математической точностью снижает риск пропустить ошибку в сложных сценариях: НДС, трансфертное ценообразование, многовалютные операции. Claude Fable 5 доступен через claude.ai для ручного тестирования уже сегодня.

Кейсы в личной жизни

Разработчик: используйте Claude Fable 5 для ревью алгоритмов с нетривиальной математикой — хэширование, криптография, численные методы, оптимизация. Качество объяснений и верификации шагов стало заметно выше. Просите модель не просто дать ответ, а пройти каждый шаг с обоснованием.

Студент и аспирант: задачи из высшей математики, теории вероятностей, математической статистики — теперь можно получить детальный разбор с проверкой каждого шага. Полезно как тренажёр и как инструмент для понимания, где именно в доказательстве ошибка. Финальные ответы всё равно стоит верифицировать самостоятельно.

Контент-мейкер об ИИ: интерпретировать и объяснять математику бенчмарков аудитории — задача нетривиальная. Используйте сильные модели для генерации аналогий и упрощённых объяснений, которые при этом остаются корректными. Это ускоряет подготовку материалов и снижает риск упрощений, искажающих суть.

Как применить сегодня

Протестируйте Claude Fable 5 на ваших реальных задачах с математикой — не на синтетических примерах из интернета
Сравните результаты с GPT-5.5 на тех же входных данных: 13 пунктов на бенчмарке — не гарантия аналогичного разрыва в вашем конкретном домене
Для агентских систем с математическим reasoning рассмотрите Claude Fable 5 как reasoning-модель в связке с инструментами верификации шагов
Следите за динамикой на FrontierMath и других математических тестах (MATH-500, AIME) — они дают дополнительный контекст к заявленным способностям
Если вы уже используете Opus 4.5 в production — этот результат достаточный повод запустить A/B сравнение на вашем pipeline

#Claude #GPT-5.5 #математика #бенчмарки #Anthropic

← Все статьи