AI-агенты для кодинга научились многому: работают в терминале, правят файлы, запускают тесты. Но бенчмарк SWE-Explore поставил под вопрос базовую предпосылку — умеют ли они правильно находить место, которое нужно менять. Ответ двойственный: с файлом угадывают достаточно надёжно, но с конкретными строками внутри него — регулярно промахиваются.
Контекст
Главный ориентир для coding-агентов сегодня — бенчмарк SWE-bench: задача формулируется как GitHub-issue, агент должен выдать рабочий патч. Проблема в том, что этот тест измеряет финальный результат, не разбирая, где именно сломался агент — на этапе поиска нужного контекста или на этапе генерации исправления. SWE-Explore — первый бенчмарк, который разделяет эти два навыка явно.
Исследователи проверяли, насколько точно агенты локализуют проблему: определяют нужный файл и конкретные строки, требующие изменения. В тестировании участвовали Claude Code и Codex — два наиболее активно используемых coding-агента в реальных командах. Разрыв между уровнями оказался показательным.
На уровне файлов агенты справляются неплохо — интуитивно находят правильный модуль или компонент. Но как только задача сужается до конкретных строк внутри файла, точность падает. Большинство критических строк агент пропускает — и именно это делает последующий патч неверным, даже если сама логика исправления выглядит правильной.
Аналитика
Это не баг конкретной модели — это системная проблема архитектуры. Кодовые агенты работают через retrieval: сначала ищут релевантный контекст, потом генерируют изменения на его основе. Если retrieval возвращает неточный контекст — правильное рассуждение на неверных данных даёт неверный результат. Патч выглядит убедительно, тесты иногда проходят, но баг остаётся.
В реальных кодовых базах это выражается конкретно: агент открывает файл целиком, видит сотни строк, формирует «понимание» на основе среза контекста и предлагает правку. Если нужная строка оказалась за пределами этого среза или потерялась среди похожих конструкций — агент правит не то место. Это объясняет паттерн, который разработчики замечали давно: агент «понял» задачу, но сделал не то.
SWE-Explore поднимает важный вопрос для всей индустрии: текущие leaderboards могут переоценивать реальные возможности агентов. Бенчмарк с компактной кодовой базой не отражает работу в монорепозитории на сотни тысяч строк, где нужная строка — игла в стоге сена. И чем больше компании внедряют coding-агентов в production workflow, тем важнее понимать этот разрыв.
Кейсы применения в бизнесе
B2B-SaaS стартап. Небольшая команда активно использует Claude Code для ускорения feature-разработки. Логичный вывод из SWE-Explore: изменить workflow так, чтобы разработчик делал предварительный grep или семантический поиск и руками указывал агенту конкретные файлы и строки. Агент получает точный контекст — и генерирует патч качественнее. Время на навигацию уходит у человека, но не тратится впустую агентом, который потом правит не то.
Корпорация с legacy-кодом. Кодовая база с историей в 10+ лет — максимальный риск именно такого рода ошибок. Агент уверенно «находит файл», но строки внутри несут десятилетия неочевидных зависимостей. Автоматические правки без human review в таком контексте — прямой путь к регрессиям. Рекомендация: coding-агенты только в связке с обязательным code review и высоким покрытием тестами.
SMB и локальный бизнес в КР/СНГ. Небольшие команды, начинающие внедрять AI в разработку, часто воспринимают агентов как «умный автопилот». SWE-Explore напоминает: агент — инструмент со слепыми пятнами, а не замена архитектора. Для локализации багов в production стоит сначала найти место вручную, потом доверять агенту написать или оптимизировать конкретный блок.
Кейсы в личной жизни
Разработчик. При работе с Claude Code или Cursor — не пиши просто «почини этот баг». Укажи файл, приложи стектрейс, скопируй нужный фрагмент кода. Чем точнее контекст, тем выше шанс попасть в нужные строки с первого раза. Это напрямую следует из того, что показывает SWE-Explore: retrieval — слабое звено, и его можно компенсировать точной формулировкой задачи.
Студент или джуниор. Не доверяй слепо диффу, который предлагает агент. Читай его построчно: понимаешь ли ты, что именно изменилось и почему? Если нет — попроси агента объяснить каждую строку. Так и учишься быстрее, и избегаешь внесения «уверенных ошибок» в код.
Фрилансер с чужими проектами. Перед тем как запускать агента на незнакомой кодовой базе, потрать 15 минут на ориентацию: структура папок, ключевые модули, точки входа. Это даёт возможность правильно сформулировать задачу — агент сработает точнее, потому что получит нужный контекст от тебя, а не будет блуждать самостоятельно.
Как применить сегодня
- При работе с coding-агентом всегда указывай файл — не полагайся на то, что агент найдёт его сам.
- Добавляй к промпту конкретные строки или фрагмент кода, где воспроизводится проблема.
- Перед применением патча читай diff построчно — особенно если агент менял что-то за пределами очевидной зоны.
- Используй
grep,ripgrepили семантический поиск для предварительной локализации до того как передаёшь задачу агенту. - Оцениваешь coding-агента для команды — тестируй на своей кодовой базе, а не только на публичных бенчмарках: SWE-Explore показывает, что разрыв между тестовой средой и production может быть существенным.