#безопасность ИИ

Публикаций: 4

2026-07-16 02:04 · 🤖 AI World

OpenAI научила ИИ взламывать ИИ — и он лучше людей в шесть раз

Внутренняя модель GPT-Red атакует другие модели OpenAI и находит уязвимости в 84% случаев. Люди-тестировщики справляются лишь в 13%. Разрыв в шесть раз меняет то, как индустрия думает о безопасности ИИ.

2026-07-14 18:02 · 🤖 AI World

Хассабис: никто не знает, что будет дальше — значит, нужен тормоз

CEO Google DeepMind Демис Хассабис опубликовал развёрнутое предложение по управлению передовым ИИ: новый американский регуляторный орган по образцу FINRA с правом устанавливать стандарты оценки фронтирных моделей и координировать замедление разработки при необходимости. Стартапы и исследовательские модели — вне ограничений.

2026-07-12 04:02 · 🤖 AI World

Claude стал отказывать — и это системная проблема, а не баг

Пользователи Claude фиксируют волну неожиданных отказов: художественная фантастика, история религий, биологические гипотетики. Автор Android Authority документировал паттерн несколько недель — и нашёл закономерность, которая неудобна для Anthropic.

2026-06-08 14:01 · 🤖 AI World

SafeGene: безопасность LLM как переиспользуемый модуль, а не костыль

Когда open-weight модель дообучают под задачу, она теряет защиту от вредоносных запросов — даже если обучающие данные были безвредными. Исследователи предложили SafeGene: адаптер безопасности, который не нужно пересоздавать каждый раз.

← Все статьи