2026-05-31 14:01 · 🤖 AI World

AI-агенты поиска притворяются, что исследуют — а сами вспоминают

Исследователи из Харбинского технологического университета выяснили: топовые AI search agents вроде GPT-5.4 и Kimi K2.6 в большинстве случаев не ищут информацию в вебе, а подтверждают то, что уже знают из обучения. Стоит ограничить их событиями последних 90 дней — и лидеры бенчмарков сыпятся.

Новый бенчмарк LiveBrowseComp от Харбинского технологического университета сделал то, чего не делали предыдущие тесты: убрал у моделей возможность жульничать. Все вопросы — только о событиях последних 90 дней. Никакой опоры на обучающие данные. Результат: GPT-5.4 и Kimi K2.6, которые уверенно держат первые строчки в стандартных рейтингах, резко теряют позиции. Рейтинги перемешиваются. То, что выглядело как «умение искать», оказывается умением вспоминать.

Контекст

AI search agents позиционируются как следующий уровень после RAG и обычных чат-ботов: модель сама формулирует запросы, обходит несколько источников, синтезирует ответ в реальном времени. На этом тезисе строятся продукты Perplexity, Microsoft Copilot, OpenAI SearchGPT и десятки стартапов. Инвесторы вложили в этот сегмент миллиарды, пользователи перестают открывать Google.

Проблема в том, что бенчмарки, на которых соревнуются модели, давно устарели методологически. Большинство из них содержат вопросы, ответы на которые есть в обучающих корпусах. Модель «ищет в вебе» — а на самом деле просто достаёт нужный факт из памяти и оборачивает его в citation-формат для убедительности.

LiveBrowseComp закрывает эту лазейку временны́м срезом. 90 дней — достаточно свежо, чтобы события точно не попали в обучение ни одной из современных моделей. Это заставляет агентов действительно работать с вебом, а не имитировать эту работу.

Аналитика

Перестановки в рейтингах — это симптом, а не главная новость. Главное: индустрия годами оптимизировала модели под бенчмарки, которые измеряли не поиск, а память. Весь стек — от обучения до промпт-инжиниринга — заточен под то, чтобы хорошо выглядеть на тестах, где можно схитрить. LiveBrowseComp — первый публичный инструмент, который это обнажает систематически.

Для бизнеса это означает конкретный риск: если вы внедрили AI search agent для мониторинга новостей, конкурентной разведки или due diligence — он с высокой вероятностью отвечает из кэша, а не из актуальных источников. Особенно критично для быстро меняющихся рынков: цены, регуляторика, персоналии. Модель уверенно называет «актуальный» факт, которому полгода.

Второй момент — доверие к agentic-системам в целом. Один из главных аргументов в пользу автономных агентов — способность работать с живой информацией. Если этот аргумент оказывается преувеличенным, это затрагивает весь нарратив «агент лучше сотрудника» в части актуальности данных. Компаниям, которые строят продукты на search agents, стоит переосмыслить, где именно они тестируют точность.

Кейсы применения в бизнесе

B2B-SaaS стартап (конкурентный мониторинг). Если вы используете AI agent для ежедневного дайджеста о конкурентах — добавьте к каждому выводу явный запрос на дату источника. Инструкция в системном промпте: «Для каждого факта укажи дату публикации источника. Если источник старше 60 дней — помечай явно». Это не решает проблему, но делает ложную уверенность видимой.

Корпорация с legacy (compliance и регуляторика). Юридические и compliance-команды часто тестируют AI-ассистентов на знание актуального законодательства. LiveBrowseComp-эффект здесь максимально опасен: модель уверенно цитирует норму, которая изменилась три месяца назад. Решение — изолировать регуляторные запросы в RAG-систему с ежемесячным обновлением корпуса, не доверяя это web search агенту.

SMB / локальный бизнес в КР и СНГ. Предприниматели, которые используют AI search для анализа локального рынка — цены на аренду, курсы валют, условия банков — получают особенно ненадёжные результаты: локальные события редко попадают в обучающие данные вовремя. Здесь лучше комбинировать: AI для структурирования, ручной поиск по местным источникам для актуальных цифр.

Кейсы в личной жизни

Разработчик. Если вы используете AI search agent для поиска свежих библиотек, changelog'ов или CVE — проверяйте дату последнего обновления источника вручную. Модель может уверенно описывать API, который уже deprecated. Полезный лайфхак: добавлять в запрос «только события после [дата]» — это активирует реальный поиск, а не пересказ памяти.

Контент-мейкер / журналист. При фактчекинге через AI search agents задавайте контрольный вопрос: «Когда именно произошло это событие и какой источник ты нашёл прямо сейчас?» Если модель не может назвать конкретный URL с датой — скорее всего, она вспоминает, а не ищет. Это быстрый способ отфильтровать hallucination от реального поиска.

Студент / исследователь. Для академических задач, где актуальность критична — свежие публикации, последние данные по теме — стоит использовать специализированные инструменты типа arXiv search или Google Scholar напрямую. AI search agent полезен для синтеза и объяснения, но не как первичный источник свежей литературы.

Как применить сегодня

Добавь в системный промпт своего search agent: «Для каждого факта укажи дату публикации и название источника. Если источник старше 60 дней — явно предупреди».
Протестируй своего агента по LiveBrowseComp-принципу: задай 5-10 вопросов о событиях последних 2 месяцев в твоей отрасли и проверь источники вручную.
Для критичных бизнес-решений (цены, регуляторика, кадровые изменения у конкурентов) не доверяй web search agent без верификации даты источника.
Следи за обновлениями LiveBrowseComp — это первый бенчмарк, который реально измеряет web research, а не память; его результаты стоит учитывать при выборе инструментов.
Если строишь продукт на agentic search — включи в QA отдельный тест-сьют на «свежие события»: спрашивай о том, что точно не могло попасть в обучение.

«Как только модели лишают возможности опираться на память — существующие рейтинги перемешиваются» — ключевой вывод исследования Харбинского технологического университета.

#AI agents #поиск #бенчмарки #LLM #agentic

← Все статьи