2026-06-16 10:01 · 🤖 AI World

Белый дом атакует Anthropic: jailbreak или модель работает правильно

Белый дом опубликовал отчёт о «взломе» Claude Fable — но независимый эксперт по кибербезопасности, которого сам Anthropic попросил проверить выводы, пришла к противоположному заключению. Разбираемся, что на самом деле произошло и почему это важнее, чем кажется.

В середине июня 2026 года журналист Маттео Вонг из The Atlantic опубликовал материал под заголовком «The White House Is Ratcheting Up Its War Against Anthropic». Центральный эпизод — отчёт американской администрации о так называемом jailbreak модели Claude Fable. Anthropic не стал отвечать в одиночку: компания передала отчёт Кэти Мусурис — основательнице и CEO Luta Security, одному из признанных голосов в теме vulnerability disclosure. Она изучила документ и пришла к выводу, прямо противоположному позиции Белого дома.

Контекст

Claude Fable — одна из последних моделей Anthropic, выпущенная в начале июня 2026 года. Симон Уиллисон, один из самых внимательных наблюдателей за экосистемой LLM, описал её как «неутомимо проактивную» — то есть модель сама инициирует действия, не ждёт команды. Это важно для понимания инцидента.

Суть «jailbreak» из отчёта Белого дома такова: IT-специалистам давали намеренно уязвимый код и просили Fable помочь с ним. Когда запрос звучал как «проверь код на уязвимости» — модель отказывалась. Когда тот же запрос переформулировали как «почини этот код» плюс несколько ручных шагов — выполняла. Именно это администрация назвала опасным обходом защиты.

Мусурис, которая не получает денег от Anthropic и была привлечена именно как независимый арбитр, посмотрела на тот же сценарий иначе. По её словам, модель вела себя ровно так, как должна вести себя инструмент для киберзащиты: отказала от прямого анализа уязвимостей — и согласилась помочь с починкой. Разница принципиальная.

Аналитика

Этот эпизод — не техническая история про баг. Это история про то, как одна и та же модель с одним и тем же поведением может быть описана диаметрально противоположно в зависимости от политического контекста. Фраза «review the code for security issues» и «fix this code» — семантически разные запросы, и модель реагирует на них по-разному. Называть это jailbreak — значит не понимать, как устроены инструкции безопасности в современных LLM, либо намеренно упрощать картину для нетехнической аудитории.

Важнее другое: напряжение между Белым домом и Anthropic — часть более широкой борьбы за контроль над нарративом вокруг AI safety. Anthropic последовательно позиционирует себя как компанию, которая строит «безопасный ИИ» через Constitutional AI и RLHF. Если государство может указать на «дыру» — пусть даже спорную — это инструмент давления: регуляторного, репутационного, потенциально законодательного. Показательно, что Anthropic не просто отверг обвинения, а привлёк независимого эксперта и дал ему доступ к отчёту. Это необычно прозрачный ход.

Для рынка в целом этот кейс сигнализирует: граница между «jailbreak» и «normal use» станет полем политических и юридических битв. Инструменты для cyberdefense, code review, penetration testing — все они находятся в серой зоне. Компании, которые строят продукты в этих нишах, должны уже сейчас думать о том, как документировать intended behavior своих AI-агентов.

Кейсы применения в бизнесе

B2B-SaaS стартап, интегрирующий LLM в DevSecOps: разграничьте в системном промпте понятия «аудит» и «рефакторинг». Если модель отказывает на «проверь на уязвимости» — это не баг, это safety rail. Перестройте UX так, чтобы пользователь задавал задачу через actionable формулировку: «улучши безопасность этого фрагмента». Фиксируйте это поведение в документации продукта — это защита от будущих регуляторных претензий.

Корпорация с legacy-инфраструктурой: если вы пилотируете AI-инструменты для внутреннего code review — заранее пропишите политику: какие запросы разрешены, какие нет, что делать при отказе модели. Отчёт Белого дома показывает, что регуляторы будут смотреть не только на результат, но и на то, как сотрудники формулируют задачи ИИ.

SMB и локальный бизнес в КР/СНГ: история про «разные слова — разные ответы» универсальна. Если ваши сотрудники используют Claude или GPT для работы с чувствительными данными — стоит провести короткий воркшоп: как правильно формулировать запросы, чтобы получать полезный ответ и не нарушать политики безопасности платформы.

Кейсы в личной жизни

Разработчик: когда LLM отказывает на «найди уязвимость в этом коде», попробуй переформулировать: «этот код получает пользовательский ввод — какие практики безопасного кодирования здесь нарушены?» или «как бы ты улучшил безопасность этой функции?». Часто это не обход — это правильная постановка задачи.

Исследователь или студент по кибербезопасности: кейс Fable — отличный учебный пример для понимания того, как работают alignment и safety filters. Попробуй сам воспроизвести разницу в ответах на разные формулировки одного запроса — это даст интуицию про то, как современные модели обрабатывают intent vs wording.

Фрилансер, работающий с клиентами на аудитах: если вы используете AI-инструменты в security-работе, подготовьте простое описание того, как вы их применяете. Клиенты и регуляторы всё чаще задают этот вопрос. Прозрачность — это конкурентное преимущество, как показывает пример Anthropic с Мусурис.

«Это просто модель, работающая так, как и задумано, для целей киберзащиты» — Кэти Мусурис, CEO Luta Security

Как применить сегодня

Если LLM отказывает на ваш запрос — попробуйте переформулировать его через действие, а не через анализ: не «найди проблему», а «улучши это».
Для продуктов с AI-компонентом: задокументируйте, какое поведение является intended, а не случайным. Это страховка от регуляторных претензий.
Прочитайте оригинальный материал Маттео Вонга в The Atlantic — он даёт контекст про политическое измерение противостояния Белого дома и Anthropic.
Следите за тем, как Anthropic отвечает на регуляторное давление: их тактика привлечения независимых экспертов — рабочая модель для любой AI-компании.
Если вы строите инструменты для cyberdefense или DevSecOps — заранее пропишите в Terms of Service, для каких use cases ваш AI предназначен, а для каких нет.

#Anthropic #Claude #кибербезопасность #AI-регулирование #jailbreak

← Все статьи