2026-06-19 20:01 · 🤖 AI World

Новый бенчмарк: ИИ справляется лишь с 3% реальных рабочих задач

Исследователи опубликовали бенчмарк, имитирующий настоящую офисную работу — анализ, исследования, многошаговые решения. Лучшая из протестированных моделей полностью решила 3% задач.

Новый бенчмарк, ориентированный на реалистичные сценарии knowledge work, дал неудобный результат: самые мощные современные языковые модели справляются с задачами полностью лишь в 3% случаев. Не «иногда ошибаются» — а закрывают задачу от начала до конца правильно лишь в одном случае из тридцати трёх. Это не баг конкретной модели. Это системная картина по всей индустрии.

Контекст

Большинство популярных бенчмарков — MMLU, GSM8K, HumanEval — тестируют AI на изолированных задачах с чёткими ответами: решить уравнение, написать функцию, выбрать правильный вариант из четырёх. Модели на этих тестах уже давно показывают результаты уровня «лучший студент курса» или даже «эксперт». Именно поэтому заголовки про «ИИ превзошёл человека» не сходят со страниц медиа несколько лет подряд.

Реальная knowledge work устроена иначе. Финансовый аналитик, маркетолог, операционный менеджер не решают одну задачу с одним ответом — они работают в условиях неполных данных, конкурирующих приоритетов, неочевидных критериев успеха. Задача может требовать десяти промежуточных шагов, каждый из которых опирается на результат предыдущего. Ошибка на третьем шаге делает правильным ни один из последующих.

Новый бенчмарк смоделировал именно такие сценарии. Результат в 3% означает не то, что модели плохи — они отлично выполняют отдельные части задачи. Проблема в замыкании: довести задачу до финального верного состояния без ошибки на каком-либо из этапов AI пока не умеет почти никогда.

Аналитика

Три процента — это важная точка отсчёта, потому что индустрия движется именно к agentic-применениям. Агент, который 97 раз из 100 не завершает задачу полностью, не может быть надёжным исполнителем автономных рабочих процессов. Это не значит, что AI бесполезен — это значит, что текущая архитектура «дать задачу и ждать результата» работает только для узких, хорошо структурированных сценариев.

Второй вывод: разрыв между partial completion и full completion огромен. Модели умеют генерировать правдоподобные промежуточные шаги, убедительно выглядящие «правильными». Именно поэтому AI-вывод ощущается полезным в 70% случаев — но финальное решение оказывается верным несравнимо реже. Для большинства пользователей это незаметно: черновик письма «примерно хороший», резюме документа «в целом точное». В задачах с чёткими критериями — аудит, юридический анализ, финансовый расчёт — эта погрешность критична.

Третий вывод касается инвестиционного нарратива. Весь 2024–2025 год рынок покупал историю про AI-агентов, автоматизирующих белые воротнички. Бенчмарки вроде этого показывают: автоматизация отдельных подзадач уже работает, автономная замена knowledge worker на текущих моделях — пока нет. Это не приговор технологии, но это значит, что сроки сдвигаются и архитектура систем должна это учитывать.

Кейсы применения в бизнесе

B2B SaaS стартап. Если вы строите AI-фичу поверх LLM для автономного выполнения задач (генерация отчётов, квалификация лидов, анализ контрактов) — не проектируйте её как «ИИ сделает всё». Проектируйте как human-in-the-loop: ИИ генерирует 80% работы, человек верифицирует критические шаги. Так вы получаете реальное ускорение без риска «уверенно неправильных» финальных решений.

Корпорация с legacy-процессами. Внедрение AI-ассистентов в аналитические отделы имеет смысл не как замена аналитика, а как инструмент для снижения времени на подзадачи: сбор данных, первичная структуризация, черновики. Полная автономия на многошаговых процессах — преждевременна. Ценность возникает там, где AI снимает рутину с человека, а не там, где он заменяет всю цепочку.

SMB и локальный бизнес в КР/СНГ. Для небольших компаний это скорее хорошая новость: AI-инструменты уже сейчас дают реальную отдачу на простых повторяемых задачах — ответы на запросы, перевод, подготовка шаблонов, базовая аналитика. Не нужно ждать «идеального агента» — нужно выбрать 3–5 задач, где AI отрабатывает стабильно уже сегодня, и внедрить их итерационно.

Кейсы в личной жизни

Разработчик. Знать этот результат — значит правильно калибровать доверие к AI-ассистенту в коде. Claude и GPT блестяще пишут функции и объясняют паттерны. Но если вы просите «реши задачу целиком: спроектируй архитектуру, напиши миграции, покрой тестами, задокументируй» — критически проверяйте каждый этап. Не потому что AI плохой, а потому что 3% на многошаговых задачах — это про всех нас.

Контент-мейкер и фрилансер. Knowledge work в вашем случае — это не только написание. Это и исследование темы, и верификация фактов, и адаптация под аудиторию, и финальный монтаж смыслов. AI отлично справляется с каждым этапом по отдельности. Полный цикл «дай тему — получи готовый материал» по-прежнему требует вашего участия на стыках. Используйте AI как ускоритель на каждом этапе, а не как заменитель всего процесса.

Студент или исследователь. Бенчмарк даёт важный сигнал: AI — сильный инструмент для понимания концепций, объяснения материала, черновиков. Для многошаговых исследовательских задач — синтеза литературы, построения аргументации, проверки гипотез — результаты требуют вашей верификации. AI ошибается там, где цепочка длинная, а критерий успеха неочевиден.

Как применить сегодня

Разбивайте большие задачи на атомарные шаги и запускайте AI на каждом отдельно — так вероятность ошибки на каждом этапе снижается и вы контролируете стыки.
Для критических задач (финансы, юридика, технические решения) всегда запрашивайте у AI объяснение промежуточных шагов, а не только финальный вывод — это помогает поймать ошибку до того, как она размножится.
Используйте AI-агентов с явным human checkpoint: инструменты вроде Claude с tool use позволяют видеть, какие действия агент совершил — не принимайте финальный результат без просмотра цепочки.
Отслеживайте выходящие бенчмарки по knowledge work (GAIA, τ-bench, WorkArena и аналоги) — они дают реальную картину прогресса в сравнении с маркетинговыми заявлениями вендоров.
Там, где AI стабильно ошибается на полном цикле — фиксируйте такие задачи и возвращайтесь к ним раз в квартал. Модели улучшаются; сегодняшний провал может стать рабочим инструментом через 6–12 месяцев.

#бенчмарки #knowledge work #AI-агенты #LLM #автоматизация

← Все статьи