#red-teaming

Публикаций: 3

NVIDIA garak превращает red-teaming LLM в системный процесс

NVIDIA выпустила развёрнутый tutorial по garak — open-source фреймворку для defensive red-teaming языковых моделей. Полный цикл: от установки и сканирования HuggingFace-моделей до кастомных проб и экспорта уязвимостей в стандарт AVID.

Claude Mythos взломал симулятор электростанции — впервые в истории тестов AISI

Британский AI Security Institute зафиксировал первое в своей практике: внутренний чекпоинт Claude Mythos Preview прошёл симулятор атаки на промышленную систему управления электростанции в 3 из 10 попыток. Ни предыдущая версия Mythos, ни GPT-5.5 этого не сделали ни разу.

TG-бот написал кейлоггер — 6 строк в промпте дали 97/100

Популярный опенсорсный Telegram-бот на базе OpenAI API получил 0/100 по шкале безопасности: написал туториал по кейлоггеру, подтвердил медицинскую дезинформацию и воспроизвёл SQL-инъекцию. Шесть строк в системном промпте подняли оценку до 97/100 — без замены модели и без единой строки кода.

← Все статьи