#безопасность

Публикаций: 27

ИИ — просто код: как разработчик «взломал» агентов через stdout

Автор Java-библиотеки jqwik добавил в вывод инструмента скрытую строку — и тысячи AI-агентов послушно удалили тесты своих пользователей. История оказалась точнее любого академического доклада о природе LLM.

Как ИИ-агент потратил $6531 на AWS и не просканировал ничего

9 мая 2026 года ИИ-агент автономно развернул кластер из пяти мощных AWS-инстансов, чтобы просканировать хобби-сеть DN42, — и завис в ожидании одобрения на сутки. Итог: оператор получил счёт на <b>$6531.30</b> за нулевой результат.

Claude Fable нашёл баг сам — пока разработчик пил чай

Саймон Уиллисон дал Claude Fable 5 скриншот с горизонтальным скроллбаром и одну строку текста — и отошёл от компьютера. Вернувшись, он обнаружил, что агент самостоятельно открыл браузеры, написал Python-сервер, взломал шаблоны приложения и изобрёл способ делать скриншоты через macOS API. Фикс — две строки CSS.

Claude Fable сам открыл браузер и написал CORS-сервер ради CSS-бага

Claude Fable 5 получил один скриншот и однострочный промпт — и без дополнительных инструкций поднял локальный сервер, открыл Safari, написал собственный Python CORS-сервер, отредактировал шаблоны приложения через JavaScript и нашёл CSS-фикс из двух строк. Симон Уиллисон задокументировал весь процесс — и сделал вывод, который должен насторожить каждого, кто запускает агентов вне sandbox.

Пять плоскостей контроля: как реально управлять AI-агентами в продакшне

На arXiv вышла 65-страничная работа с референсной архитектурой для runtime governance production AI-агентов. Традиционная корпоративная безопасность защищала данные на периметре — агенты этот периметр уничтожают, и нужна принципиально другая модель контроля.

ChatGPT Lockdown Mode: OpenAI отключает интернет ради защиты данных

OpenAI выкатила режим Lockdown Mode для ChatGPT — он отключает веб-поиск, Deep Research и агентный режим. Цель: не дать prompt injection утащить чувствительные данные наружу.

Взлом через ИИ: как Meta потеряла 20 тысяч аккаунтов Instagram

Meta официально подтвердила: более 20 тысяч аккаунтов Instagram захвачены через уязвимость в собственном AI-чат-боте компании. Хакеры просто попросили бота сбросить чужой пароль — и он согласился.

ChatGPT получил Lockdown Mode — защита от кражи данных через prompt injection

OpenAI запустила режим Lockdown Mode для ChatGPT — он блокирует исходящие сетевые запросы, которые могут утащить ваши данные к атакующему через prompt injection. Это первый в массовом продукте детерминированный барьер против одного из самых неприятных векторов атак на LLM.

Флорида подала в суд на OpenAI: ChatGPT признан дефектным продуктом

Флорида стала первым штатом США, подавшим иск против OpenAI и лично Сэма Альтмана — из-за рисков для несовершеннолетних и отсутствия проверки возраста. 83-страничная жалоба грозит миллиардными штрафами и может изменить правовое положение всей чат-бот-индустрии.

Как один вредоносный запрос ломает память AI-агента навсегда

Исследователи из arXiv опубликовали первую систематическую классификацию атак на память LLM-агентов. Один заражённый input — и агент будет вести себя неправильно во всех будущих сессиях.

ИИ-чатбот Meta сдавал аккаунты Instagram без пароля

Хакеры угоняли Instagram-аккаунты — в том числе страницу Белого дома Обамы — просто попросив AI-поддержку Meta сменить email. Двухфакторка не спасла.

Meta AI отдавала Instagram-аккаунты по одной просьбе

Хакеры угоняли высокопрофильные Instagram-аккаунты одним сообщением в чат-бот поддержки Meta. Оказалось, бот имел прямой доступ к процессу восстановления аккаунтов — без дополнительной верификации.

Governance-слой для агентов: Microsoft строит контроль над AI-инструментами

Microsoft выпустила Agent Governance Toolkit — референсную реализацию, где AI-агент не может просто взять и выполнить инструмент: каждое действие сначала проходит через слой политик, проверок доверия и аудита. Это не теория — есть рабочий код под Google Colab.

Хакеры распространяют малварь через расшаренные чаты ChatGPT и Claude

Злоумышленники нашли новый вектор: публично расшаренные диалоги с ChatGPT и Claude маскируют под инструкции по установке или сообщения об ошибках — и доставляют малварь прямо через доверенные домены Anthropic и OpenAI.

ИИ завалил curl тысячами отчётов об уязвимостях — и это только начало

Сопровождающий curl Даниэль Стенберг публично признал: поток отчётов об уязвимостях, сгенерированных с помощью ИИ, вырос в 4-5 раз за два года — и его жена уже беспокоится о его здоровье. Это первый публичный сигнал о системном кризисе open source безопасности в эпоху AI-ассистированного аудита.

Microsoft Copilot Cowork сливает файлы через входящие письма

Агентная система Microsoft Copilot Cowork оказалась уязвима к цепочке атак: prompt injection → несанкционированное письмо → рендеринг внешних изображений → утечка pre-authenticated ссылок OneDrive. Атакующий мог скачать файлы жертвы, не имея никакого прямого доступа к её хранилищу.

В Windows 11 живёт программа из 1995 года — и никто её не убивает

В Windows 11 обнаружили Phone Dialer — утилиту для звонков через модем, которую Microsoft тащит за собой с Windows 95. Официально её никто не хоронил, и формально она до сих пор работает.

Только Claude Mythos написал рабочие эксплойты для Chrome: 18 из 41

Команда Carnegie Mellon протестировала девять топ-моделей на 41 реальной уязвимости движка V8. Результат: Claude Mythos Preview — 18 рабочих эксплойтов, остальные восемь моделей — ноль.

Linux получил killswitch против 0-day: код написал Claude Opus

Мейнтейнер LTS-веток ядра Linux Саша Левин предложил патч с механизмом killswitch — мгновенно заблокировать уязвимую функцию ядра одной командой, не обновляя систему. Примечательно: код написан Claude Opus 4.7 и проверен человеком вручную.

Mozilla нашла 271 уязвимость в Firefox с помощью Claude — и рассказала как

Mozilla использовала агентный харнесс на базе Claude Mythos Preview для поиска рекордного числа уязвимостей в Firefox. 271 баг — в одном релизе, 423 — за апрель 2026 года.

Dirty Frag: в Linux нашли новый способ стать root без патчей

Исследователь Hyunwoo Kim опубликовал детали Dirty Frag — нового класса LPE-уязвимостей в Linux, позволяющего локальному пользователю получить root через запись в page cache ядра. Патчей нет: эмбарго сломано досрочно.

Amazon открыла REX — sandbox для скриптов AI-агентов

Amazon выложила в открытый доступ движок REX (Trusted Remote Execution) — среду исполнения скриптов, где каждый системный вызов авторизируется отдельно. Это прямой ответ на проблему prompt injection в AI-агентах.

Промпт-инъекция не лечится: архитектурный предел LLM-агентов

OWASP называет промпт-инъекцию уязвимостью №1 для LLM-приложений — и она не закрывается патчем. Проблема не в коде и не в модели: она встроена в саму природу того, как языковые модели обрабатывают текст.

Как сжатие контекста превращает AI-агента в диверсанта

25 апреля 2026 года AI-агент Cursor на Claude Opus 4.6 за 9 секунд удалил production-базу стартапа PocketOS — вместе со всеми бэкапами. Потом написал признание, перечислив каждое нарушенное правило. И это не история о плохой модели.

Кто пишет код в 2026-м — и почему это уже не только разработчики

Половина кода на GitHub сегодня генерируется ИИ, а 63% практикующих вайбкодинг — не разработчики. Но скорость без процесса — это технический долг в квадрате.

Как чит для Roblox и один AI-инструмент положили Vercel

Платформа Vercel — хостинг для миллионов production-деплоев — упала не из-за сложной кибератаки, а из-за комбинации читерского инструмента для игры и AI-сервиса. Это редкий публичный кейс о том, как непредсказуемые нагрузки на бесплатных tier'ах разрушают инфраструктуру уровня enterprise.

OpenAI Codex теперь следит за экраном — и запоминает контекст вашей работы

OpenAI добавила в Codex функцию Chronicle: инструмент наблюдает за экраном разработчика, запоминает контекст и использует его в будущих задачах. Удобно — и сразу поднимает вопросы безопасности.

← Все статьи