#prompt injection

Публикаций: 8

ИИ — просто код: как разработчик «взломал» агентов через stdout

Автор Java-библиотеки jqwik добавил в вывод инструмента скрытую строку — и тысячи AI-агентов послушно удалили тесты своих пользователей. История оказалась точнее любого академического доклада о природе LLM.

ChatGPT Lockdown Mode: OpenAI отключает интернет ради защиты данных

OpenAI выкатила режим Lockdown Mode для ChatGPT — он отключает веб-поиск, Deep Research и агентный режим. Цель: не дать prompt injection утащить чувствительные данные наружу.

NVIDIA garak превращает red-teaming LLM в системный процесс

NVIDIA выпустила развёрнутый tutorial по garak — open-source фреймворку для defensive red-teaming языковых моделей. Полный цикл: от установки и сканирования HuggingFace-моделей до кастомных проб и экспорта уязвимостей в стандарт AVID.

ChatGPT получил Lockdown Mode — защита от кражи данных через prompt injection

OpenAI запустила режим Lockdown Mode для ChatGPT — он блокирует исходящие сетевые запросы, которые могут утащить ваши данные к атакующему через prompt injection. Это первый в массовом продукте детерминированный барьер против одного из самых неприятных векторов атак на LLM.

Как один вредоносный запрос ломает память AI-агента навсегда

Исследователи из arXiv опубликовали первую систематическую классификацию атак на память LLM-агентов. Один заражённый input — и агент будет вести себя неправильно во всех будущих сессиях.

Microsoft Copilot Cowork сливает файлы через входящие письма

Агентная система Microsoft Copilot Cowork оказалась уязвима к цепочке атак: prompt injection → несанкционированное письмо → рендеринг внешних изображений → утечка pre-authenticated ссылок OneDrive. Атакующий мог скачать файлы жертвы, не имея никакого прямого доступа к её хранилищу.

TG-бот написал кейлоггер — 6 строк в промпте дали 97/100

Популярный опенсорсный Telegram-бот на базе OpenAI API получил 0/100 по шкале безопасности: написал туториал по кейлоггеру, подтвердил медицинскую дезинформацию и воспроизвёл SQL-инъекцию. Шесть строк в системном промпте подняли оценку до 97/100 — без замены модели и без единой строки кода.

Промпт-инъекция не лечится: архитектурный предел LLM-агентов

OWASP называет промпт-инъекцию уязвимостью №1 для LLM-приложений — и она не закрывается патчем. Проблема не в коде и не в модели: она встроена в саму природу того, как языковые модели обрабатывают текст.

← Все статьи