Независимая аналитическая компания Artificial Analysis получила предварительный доступ к GPT-5.5 и протестировала все пять уровней рассуждения модели: xhigh, high, medium, low и non-reasoning. Итог — первое место в Intelligence Index, отрыв от ближайших конкурентов на 3 пункта и конец трёхсторонней ничьи между OpenAI, Anthropic и Google. Но именно там, где GPT-5.5 должна была показать зрелость, числа оказались неудобными.
Контекст
Artificial Analysis — независимая платформа, которая систематически тестирует LLM по стандартизированным методологиям. Intelligence Index агрегирует результаты по рассуждению, коду, математике и знанию фактов. На протяжении нескольких месяцев тройка лидеров — OpenAI, Anthropic, Google — шла практически вровень; любой новый релиз сдвигал баланс на доли пунктов.
GPT-5.5 — первая модель OpenAI после GPT-5, которая претендует на системный шаг вперёд, а не на точечное улучшение. Параллельно в гонке участвуют Claude Opus 4.7 от Anthropic и Gemini 3.1 Pro Preview от Google. Каждый из этих игроков строит не просто чат-бот, а инфраструктуру для агентных систем — и качество знаний модели в безынструментальном режиме напрямую влияет на надёжность таких систем.
Для оценки фактических знаний Artificial Analysis разработала бенчмарк AA-Omniscience: 6 000 вопросов по 42 темам из шести областей — бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука и математика. Модели отвечают без поиска и внешних инструментов. Оценка поощряет правильный ответ, штрафует неверный и не наказывает за отказ при неуверенности.
Аналитика
GPT-5.5 xhigh набрала 57% правильных ответов на самых сложных вопросах AA-Omniscience — лучший результат среди всех протестированных моделей. Но её hallucination rate составил 86%, тогда как у Claude Opus 4.7 max — 36%, у Gemini 3.1 Pro Preview — 50%. Важно понимать методологию: hallucination rate здесь — не доля галлюцинаций от всего трафика, а доля уверенных неверных ответов среди всех случаев, когда модель не дала стопроцентно правильный ответ. Проще: насколько часто модель предпочитает «выдумать» вместо того, чтобы сказать «не знаю».
Это важнейший сигнал для всей отрасли. Рейтинги интеллекта измеряют потолок — что модель способна сделать в лучшем случае. Calibration измеряет поведение в среднем — насколько модель адекватно оценивает собственные пробелы. Для агентных систем, работающих без постоянного человеческого надзора, плохая калибровка опаснее низкого потолка: уверенный неверный ответ распространяется по цепочке инструментов.
OpenAI в System Card для GPT-5.5 указывает, что на выборке разговоров, ранее отмеченных пользователями как содержащие фактические ошибки, отдельные утверждения стали на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку. Компания сама оговаривает: это специально сложные для фактологичности случаи, не репрезентативный срез трафика. Прогресс есть — но контекст имеет значение.
Кейсы применения в бизнесе
B2B-SaaS стартап, работающий с агентами. Если в пайплайне есть шаг, где модель отвечает на фактические вопросы без RAG или поиска — это потенциальный источник ошибок при использовании GPT-5.5. Сценарий: агент по квалификации лидов, который отвечает на отраслевые вопросы по памяти. Рекомендация — либо подключить RAG-слой, либо сравнить поведение GPT-5.5 и Claude Opus 4.7 на своём домене. Не полагаться на Intelligence Index как на единственный критерий выбора.
Корпорация с юридическим или медицинским workflow. AA-Omniscience явно проверяет право и здоровье как отдельные домены. Высокий hallucination rate в закрытом режиме означает: модель без источников в юридическом или медицинском контексте требует обязательной верификации. Оптимальная конфигурация — модель с доступом к документам и явным цитированием. Слепое доверие к «сильнейшей модели» здесь неуместно.
SMB и локальный бизнес в КР/СНГ. Для большинства задач — контент, ответы клиентам, черновики — разница в 3 пункта Intelligence Index незаметна на практике. Выбор модели лучше строить на стоимости API, скорости и конкретных задачах. Если нужна точность фактов без дополнительных инструментов — результаты AA-Omniscience говорят в пользу Claude Opus 4.7 по части надёжности.
Кейсы в личной жизни
Разработчик. GPT-5.5 — сильный выбор для генерации кода, рефакторинга и архитектурных решений: программная инженерия входит в список доменов AA-Omniscience, и высокая точность там значима. Но для справочных вопросов вроде «какой синтаксис у этой функции в версии X» — перепроверяй в документации, независимо от модели.
Контент-мейкер и журналист. Ресёрч фактов через GPT-5.5 без инструментов — риск. Модель может давать убедительные, но неверные данные по датам, именам, статистике. Рабочий паттерн: использовать модель для структуры и аргументации, факты проверять в первоисточниках. Claude Opus 4.7 с более низким hallucination rate ведёт себя осторожнее при неуверенности.
Студент или исследователь. Для изучения концепций, объяснений, решения задач — GPT-5.5 xhigh даёт глубину. Для написания реферата или подготовки к защите с опорой на конкретные факты — AA-Omniscience напоминает: модель без источников ошибается уверенно. Всегда указывай модели явно: «если не уверен — скажи об этом».
Как применить сегодня
- Если выбираешь LLM для агентного пайплайна — запроси у провайдера или найди в открытых тестах hallucination rate конкретно для твоего домена, не только общий Intelligence Index.
- В промпте добавь явную инструкцию:
«Если не знаешь ответ точно — скажи об этом, не угадывай». Это снижает hallucination rate у любой модели. - Для задач с высокими ставками (право, медицина, финансы) — строй архитектуру с RAG или tool-use; безынструментальный режим даже у сильнейшей модели не подходит для production.
- Сравни GPT-5.5 и Claude Opus 4.7 на реальных задачах своей команды — разница в рейтингах не всегда совпадает с разницей в поведении на конкретном домене.
- Следи за обновлениями AA-Omniscience: это один из немногих публичных бенчмарков, который явно штрафует за уверенные неверные ответы и не наказывает за признание незнания.
«Убедительный ответ сильной модели всё равно нужно проверять — особенно если она работает без источников и внешних инструментов.»
