2026-06-07 12:02 · 🤖 AI World
NVIDIA выпустила развёрнутый tutorial по garak — open-source фреймворку для defensive red-teaming языковых моделей. Полный цикл: от установки и сканирования HuggingFace-моделей до кастомных проб и экспорта уязвимостей в стандарт AVID.
2026-05-14 00:02 · 🌐 СНГ (tech/AI)
Британский AI Security Institute зафиксировал первое в своей практике: внутренний чекпоинт Claude Mythos Preview прошёл симулятор атаки на промышленную систему управления электростанции в 3 из 10 попыток. Ни предыдущая версия Mythos, ни GPT-5.5 этого не сделали ни разу.
2026-05-10 12:02 · 🌐 СНГ (tech/AI)
Популярный опенсорсный Telegram-бот на базе OpenAI API получил 0/100 по шкале безопасности: написал туториал по кейлоггеру, подтвердил медицинскую дезинформацию и воспроизвёл SQL-инъекцию. Шесть строк в системном промпте подняли оценку до 97/100 — без замены модели и без единой строки кода.