2026-04-24 04:01 · 🌐 СНГ (tech/AI)

GPT-5.5 на вершине рейтинга, но галлюцинирует чаще конкурентов

Artificial Analysis поставила GPT-5.5 на первое место Intelligence Index — модель обошла ближайших соперников на 3 пункта. Но тот же тест вскрыл тревожную деталь: по части уверенных неверных ответов она заметно хуже Claude и Gemini.

Независимая аналитическая компания Artificial Analysis получила предварительный доступ к GPT-5.5 и протестировала все пять уровней рассуждения модели: xhigh, high, medium, low и non-reasoning. Итог — первое место в Intelligence Index, отрыв от ближайших конкурентов на 3 пункта и конец трёхсторонней ничьи между OpenAI, Anthropic и Google. Но именно там, где GPT-5.5 должна была показать зрелость, числа оказались неудобными.

Контекст

Artificial Analysis — независимая платформа, которая систематически тестирует LLM по стандартизированным методологиям. Intelligence Index агрегирует результаты по рассуждению, коду, математике и знанию фактов. На протяжении нескольких месяцев тройка лидеров — OpenAI, Anthropic, Google — шла практически вровень; любой новый релиз сдвигал баланс на доли пунктов.

GPT-5.5 — первая модель OpenAI после GPT-5, которая претендует на системный шаг вперёд, а не на точечное улучшение. Параллельно в гонке участвуют Claude Opus 4.7 от Anthropic и Gemini 3.1 Pro Preview от Google. Каждый из этих игроков строит не просто чат-бот, а инфраструктуру для агентных систем — и качество знаний модели в безынструментальном режиме напрямую влияет на надёжность таких систем.

Для оценки фактических знаний Artificial Analysis разработала бенчмарк AA-Omniscience: 6 000 вопросов по 42 темам из шести областей — бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука и математика. Модели отвечают без поиска и внешних инструментов. Оценка поощряет правильный ответ, штрафует неверный и не наказывает за отказ при неуверенности.

Аналитика

GPT-5.5 xhigh набрала 57% правильных ответов на самых сложных вопросах AA-Omniscience — лучший результат среди всех протестированных моделей. Но её hallucination rate составил 86%, тогда как у Claude Opus 4.7 max — 36%, у Gemini 3.1 Pro Preview — 50%. Важно понимать методологию: hallucination rate здесь — не доля галлюцинаций от всего трафика, а доля уверенных неверных ответов среди всех случаев, когда модель не дала стопроцентно правильный ответ. Проще: насколько часто модель предпочитает «выдумать» вместо того, чтобы сказать «не знаю».

Это важнейший сигнал для всей отрасли. Рейтинги интеллекта измеряют потолок — что модель способна сделать в лучшем случае. Calibration измеряет поведение в среднем — насколько модель адекватно оценивает собственные пробелы. Для агентных систем, работающих без постоянного человеческого надзора, плохая калибровка опаснее низкого потолка: уверенный неверный ответ распространяется по цепочке инструментов.

OpenAI в System Card для GPT-5.5 указывает, что на выборке разговоров, ранее отмеченных пользователями как содержащие фактические ошибки, отдельные утверждения стали на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку. Компания сама оговаривает: это специально сложные для фактологичности случаи, не репрезентативный срез трафика. Прогресс есть — но контекст имеет значение.

Кейсы применения в бизнесе

B2B-SaaS стартап, работающий с агентами. Если в пайплайне есть шаг, где модель отвечает на фактические вопросы без RAG или поиска — это потенциальный источник ошибок при использовании GPT-5.5. Сценарий: агент по квалификации лидов, который отвечает на отраслевые вопросы по памяти. Рекомендация — либо подключить RAG-слой, либо сравнить поведение GPT-5.5 и Claude Opus 4.7 на своём домене. Не полагаться на Intelligence Index как на единственный критерий выбора.

Корпорация с юридическим или медицинским workflow. AA-Omniscience явно проверяет право и здоровье как отдельные домены. Высокий hallucination rate в закрытом режиме означает: модель без источников в юридическом или медицинском контексте требует обязательной верификации. Оптимальная конфигурация — модель с доступом к документам и явным цитированием. Слепое доверие к «сильнейшей модели» здесь неуместно.

SMB и локальный бизнес в КР/СНГ. Для большинства задач — контент, ответы клиентам, черновики — разница в 3 пункта Intelligence Index незаметна на практике. Выбор модели лучше строить на стоимости API, скорости и конкретных задачах. Если нужна точность фактов без дополнительных инструментов — результаты AA-Omniscience говорят в пользу Claude Opus 4.7 по части надёжности.

Кейсы в личной жизни

Разработчик. GPT-5.5 — сильный выбор для генерации кода, рефакторинга и архитектурных решений: программная инженерия входит в список доменов AA-Omniscience, и высокая точность там значима. Но для справочных вопросов вроде «какой синтаксис у этой функции в версии X» — перепроверяй в документации, независимо от модели.

Контент-мейкер и журналист. Ресёрч фактов через GPT-5.5 без инструментов — риск. Модель может давать убедительные, но неверные данные по датам, именам, статистике. Рабочий паттерн: использовать модель для структуры и аргументации, факты проверять в первоисточниках. Claude Opus 4.7 с более низким hallucination rate ведёт себя осторожнее при неуверенности.

Студент или исследователь. Для изучения концепций, объяснений, решения задач — GPT-5.5 xhigh даёт глубину. Для написания реферата или подготовки к защите с опорой на конкретные факты — AA-Omniscience напоминает: модель без источников ошибается уверенно. Всегда указывай модели явно: «если не уверен — скажи об этом».

Как применить сегодня

Если выбираешь LLM для агентного пайплайна — запроси у провайдера или найди в открытых тестах hallucination rate конкретно для твоего домена, не только общий Intelligence Index.
В промпте добавь явную инструкцию: «Если не знаешь ответ точно — скажи об этом, не угадывай». Это снижает hallucination rate у любой модели.
Для задач с высокими ставками (право, медицина, финансы) — строй архитектуру с RAG или tool-use; безынструментальный режим даже у сильнейшей модели не подходит для production.
Сравни GPT-5.5 и Claude Opus 4.7 на реальных задачах своей команды — разница в рейтингах не всегда совпадает с разницей в поведении на конкретном домене.
Следи за обновлениями AA-Omniscience: это один из немногих публичных бенчмарков, который явно штрафует за уверенные неверные ответы и не наказывает за признание незнания.

«Убедительный ответ сильной модели всё равно нужно проверять — особенно если она работает без источников и внешних инструментов.»

#OpenAI #GPT-5.5 #галлюцинации #бенчмарк #LLM

← Все статьи