#AI Safety

Публикаций: 5

2026-07-16 02:04 · 🤖 AI World

OpenAI научила ИИ взламывать ИИ — и он лучше людей в шесть раз

Внутренняя модель GPT-Red атакует другие модели OpenAI и находит уязвимости в 84% случаев. Люди-тестировщики справляются лишь в 13%. Разрыв в шесть раз меняет то, как индустрия думает о безопасности ИИ.

2026-07-14 02:28 · 🤖 AI World

Нейросеть под сертификатом: как доказать надёжность MLP математически

Группа исследователей опубликовала на arXiv строгий математический фреймворк для верификации adversarial robustness многослойных перцептронов. Впервые вводится «complete certification» — понятие, которого в литературе раньше не было: минимальная зона, за пределами которой предсказание сети гарантированно меняется.

2026-07-14 02:18 · 🤖 AI World

Доказано математически: где нейросеть гарантированно не изменит ответ

Группа исследователей опубликовала на arXiv теоретический фреймворк, впервые формализующий оба направления сертификации устойчивости MLP-нейросетей. Главный сюрприз: два типа гарантий оказались асимметрично сложными с точки зрения вычислений.

2026-07-12 02:06 · 🤖 AI World

Как Boko Haram превратила ChatGPT, Claude и Gemini в оружие

Кембриджское исследование зафиксировало: Boko Haram системно использует крупнейшие AI-чатботы для планирования атак и создания взрывных устройств. С 2023 года операторы ISIS обучают командиров техникам обхода фильтров — и ни одна платформа не устояла.

2026-07-11 02:05 · 🤖 AI World

Как террористы осваивают frontier AI — и что это значит для всех нас

Организация CASP опубликовала доклад о том, как экстремистские группировки — в частности Boko Haram — применяют передовые AI-инструменты. Это уже не гипотетический сценарий из фантастики: речь идёт о генерации пропаганды, вербовке и обходе модерации с помощью тех же моделей, которыми пользуетесь вы.

← Все статьи