2026-05-16 08:02 · 🌐 СНГ (tech/AI)

Только Claude Mythos написал рабочие эксплойты для Chrome: 18 из 41

Команда Carnegie Mellon протестировала девять топ-моделей на 41 реальной уязвимости движка V8. Результат: Claude Mythos Preview — 18 рабочих эксплойтов, остальные восемь моделей — ноль.

Исследователи из Carnegie Mellon под руководством Дэвида Брамли опубликовали ExploitBench — бенчмарк из 41 уязвимости в движке V8, который работает внутри Chrome, Edge и Node.js. Девять фронтир-моделей прогнали по одному и тому же набору багов. Только Claude Mythos Preview — закрытая модель Anthropic — довёл до рабочего эксплойта 18 из 41 бага. Остальные восемь — Opus 4.7, Sonnet 4.6, Haiku 4.5, GPT-5.5, Gemini 3.1 Pro, GLM 5.1, Kimi K2.6, MiniMax M2.7 — ни одного.

Контекст

V8 — JavaScript-движок Google. Он внутри каждого Chrome и Edge, внутри Node.js. Уязвимость в V8 — потенциально миллиарды устройств на всех платформах одновременно. Именно поэтому Carnegie Mellon выбрал его как поле для теста: сложный системный код, реальные CVE, без упрощений.

Предыдущие AI-бенчмарки по безопасности обычно останавливались на том, может ли модель «уронить» программу. ExploitBench разбивает путь от уязвимости до реального взлома на 16 шагов в пяти уровнях. Уровень 5 — найти уязвимый код. Уровень 4 — добиться краша. Уровень 3 — строить примитивы чтения/записи памяти внутри изолированной среды V8. Уровень 2 — пробить песочницу и выйти к памяти всего процесса. Уровень 1 — захватить регистры процессора и выполнить произвольный код. Вот где разница между «браузер упал» и «злоумышленник установил вредонос».

Все публичные модели уверенно доходят до уровня 3. Дальше — стена. Единственное частичное исключение — GPT-5.5: один раз добрался до захвата регистров на одном WebAssembly-баге, но до полного выполнения кода справился только через Codex CLI — агентскую обёртку OpenAI. Без неё не смог. Mythos выходит из песочницы самостоятельно и проходит полный путь на 18 багах — включая уязвимости в WebAssembly и JIT-компиляторе.

Аналитика

Разрыв между «нашёл баг» и «написал рабочий эксплойт» — принципиальный. Предыдущие crash-based бенчмарки создавали иллюзию, что модели почти умеют атаковать системы. ExploitBench показывает: они умели лишь падать. Настоящий эксплойт — это 12 дополнительных ступеней технической работы после краша. И здесь до финиша доходит только одна модель.

Anthropic держит Mythos в закрытом доступе — только для партнёров по специальной программе. Это редкий случай, когда компания публично признаёт: модель слишком опасна для открытого релиза прямо сейчас. Авторы бенчмарка при этом предупреждают: разрыв временный. То, что умеет одна закрытая модель сегодня, через несколько месяцев освоят публичные. Это не успокоение — это таймер.

Для AI-first компаний исследование означает одно: время встроить AI-assisted security в процессы — сейчас, до того как атакующие получат аналогичные инструменты в открытом доступе. Не после. Защитная сторона всегда получает новые возможности раньше — но ненадолго.

Кейсы применения в бизнесе

B2B-SaaS стартап без выделенного security-инженера. Публичные модели уже доходят до уровня 3 — умеют строить примитивы работы с памятью. Это означает, что AI-assisted code review уже сейчас ловит опасные паттерны в JavaScript-коде до деплоя. Конкретный шаг: подключить Sonnet 4.6 или аналог к CI/CD с промптом «найди потенциальные use-after-free и out-of-bounds в этом diff». Нулевая инфраструктура, ощутимый первый фильтр.

Корпорация с legacy Node.js-бэкендами. Старые версии Node.js тянут за собой устаревший V8 — прямая аудитория для этого исследования. Имеет смысл провести AI-assisted аудит зависимостей, которые держат старый движок. Это не замена полноценному пентесту, но первый быстрый фильтр за часы вместо недель.

SMB и локальный бизнес в КР/СНГ. Вектор атаки через браузерные уязвимости — не абстракция: сотрудники открывают ссылки из Telegram и почты ежедневно. Включить автообновление Chrome для всей команды, зафиксировать правило обновления браузеров еженедельно — это закрывает большинство из 41 бага ExploitBench, которые уже имеют патчи.

Кейсы в личной жизни

Разработчик на JavaScript или Node.js. Это исследование напрямую про ваш стек. Используйте публичные модели для ревью критических модулей с фокусом на опасные паттерны работы с памятью. Разговорный разбор «почему этот код потенциально опасен» дополняет статический анализатор там, где тот молчит.

Студент или контент-мейкер, изучающий кибербезопасность. Пятиуровневая структура ExploitBench — отличная концептуальная база для объяснения разницы между «нашёл уязвимость» и «провёл атаку». Разберите её без единой строчки кода — для YouTube, Telegram-канала или университетского доклада готовый сюжет с реальными данными.

Фрилансер в веб-разработке. Клиенты не понимают, что такое V8-уязвимость. Понимают «ваш браузер могут взломать». Это исследование — аргумент для продажи security-аудита или хотя бы разговора про обновление зависимостей. Публичные модели помогут быстро проверить клиентский код на очевидные проблемы и оформить это как отчёт.

Как применить сегодня

Обновите Chrome и Edge прямо сейчас — большинство из 41 бага ExploitBench уже закрыты патчами в актуальных версиях.
Если проект использует Node.js — проверьте версию через node --version и сравните с актуальным LTS: старый Node.js несёт в себе уязвимый V8.
Добавьте в code review промпт для Sonnet 4.6: «проверь этот JavaScript-код на паттерны use-after-free и небезопасной работы с памятью» — это уже уровень возможностей публичных моделей.
Следите за статусом Claude Mythos Preview: когда Anthropic откроет доступ, это изменит рынок AI-assisted pentesting. Подпишитесь на официальный блог Anthropic, чтобы не пропустить релиз.
Прочитайте оригинальное исследование ExploitBench — авторы из Carnegie Mellon детально описывают пятиуровневую структуру атаки, которая применима не только к V8.

#Claude #безопасность #LLM #эксплойты #бенчмарк

← Все статьи