#prompt injection

Публикаций: 13

2026-07-25 18:02 · 🤖 AI World

Opus 5 закрыл главную дыру в безопасности браузерных агентов

Anthropic опубликовала данные: Opus 5 в связке с Auto Mode показал 0% успешных prompt injection атак на 129 тестовых сценариях браузерных агентов. Без защитных слоёв та же конфигурация пропускала 3,7% атак — и это был главный аргумент против автономных веб-агентов в production.

2026-07-25 08:02 · 🤖 AI World

Opus 5 держит атаку: Anthropic закрыла prompt injection

Boris Cherny из Anthropic выделил неожиданное достоинство Opus 5 — не MMLU-цифры, а устойчивость к prompt injection. Это зарыто на странице 73 системной карты модели, но именно здесь скрыт главный сдвиг для agentic AI.

2026-07-24 08:02 · 🤖 AI World

AgentForger: одна ChatGPT-ссылка создавала агента с правами жертвы

Zenity Labs раскрыли уязвимость в OpenAI Agent Builder: подделанная ссылка на ChatGPT автоматически создавала агента на аккаунте жертвы, который каждые пять минут получал команды от атакующего. Без уведомлений. Без подтверждений.

2026-07-16 12:03 · 🤖 AI World

Дыра в Claude: агент сливал имя, город и работодателя

Исследователь Ayush Paul нашёл способ заставить Claude через инструмент web_fetch выгрузить личные данные пользователя на сторонний сервер — через цепочку вложенных ссылок на honeypot-сайте. Атака сработала: были извлечены имя, город и место работы. Anthropic закрыла дыру, но bug bounty не выплатила.

2026-06-27 02:04 · 🤖 AI World

6000 попыток взломать AI-ассистент — никто не прошёл

Разработчик открыл публичный вызов: взломайте AI-агента через обычную почту и заставьте слить секреты. 2000+ участников, 6000 попыток, $500 токенов — ни одной утечки.

2026-06-15 08:01 · 🤖 AI World

ИИ — просто код: как разработчик «взломал» агентов через stdout

Автор Java-библиотеки jqwik добавил в вывод инструмента скрытую строку — и тысячи AI-агентов послушно удалили тесты своих пользователей. История оказалась точнее любого академического доклада о природе LLM.

2026-06-07 16:01 · 🤖 AI World

ChatGPT Lockdown Mode: OpenAI отключает интернет ради защиты данных

OpenAI выкатила режим Lockdown Mode для ChatGPT — он отключает веб-поиск, Deep Research и агентный режим. Цель: не дать prompt injection утащить чувствительные данные наружу.

2026-06-07 12:02 · 🤖 AI World

NVIDIA garak превращает red-teaming LLM в системный процесс

NVIDIA выпустила развёрнутый tutorial по garak — open-source фреймворку для defensive red-teaming языковых моделей. Полный цикл: от установки и сканирования HuggingFace-моделей до кастомных проб и экспорта уязвимостей в стандарт AVID.

2026-06-06 08:01 · 🤖 AI World

ChatGPT получил Lockdown Mode — защита от кражи данных через prompt injection

OpenAI запустила режим Lockdown Mode для ChatGPT — он блокирует исходящие сетевые запросы, которые могут утащить ваши данные к атакующему через prompt injection. Это первый в массовом продукте детерминированный барьер против одного из самых неприятных векторов атак на LLM.

2026-06-04 17:01 · 🤖 AI World

Как один вредоносный запрос ломает память AI-агента навсегда

Исследователи из arXiv опубликовали первую систематическую классификацию атак на память LLM-агентов. Один заражённый input — и агент будет вести себя неправильно во всех будущих сессиях.

2026-05-26 22:02 · 🤖 AI World

Microsoft Copilot Cowork сливает файлы через входящие письма

Агентная система Microsoft Copilot Cowork оказалась уязвима к цепочке атак: prompt injection → несанкционированное письмо → рендеринг внешних изображений → утечка pre-authenticated ссылок OneDrive. Атакующий мог скачать файлы жертвы, не имея никакого прямого доступа к её хранилищу.

2026-05-10 12:02 · 🌐 СНГ (tech/AI)

TG-бот написал кейлоггер — 6 строк в промпте дали 97/100

Популярный опенсорсный Telegram-бот на базе OpenAI API получил 0/100 по шкале безопасности: написал туториал по кейлоггеру, подтвердил медицинскую дезинформацию и воспроизвёл SQL-инъекцию. Шесть строк в системном промпте подняли оценку до 97/100 — без замены модели и без единой строки кода.

2026-05-05 14:01 · 🌐 СНГ (tech/AI)

Промпт-инъекция не лечится: архитектурный предел LLM-агентов

OWASP называет промпт-инъекцию уязвимостью №1 для LLM-приложений — и она не закрывается патчем. Проблема не в коде и не в модели: она встроена в саму природу того, как языковые модели обрабатывают текст.

← Все статьи