#AI safety

Публикаций: 9

LLM vs пропаганда: новый бенчмарк проверил уязвимость AI-моделей

Институт эстонского языка выпустил первый систематический бенчмарк, измеряющий, насколько AI-языковые модели поддаются российским пропагандистским нарративам. Вопрос не академический — LLM всё глубже встроены в медиа, аналитику и корпоративные коммуникации.

Честный ИИ недостижим: теорема невозможности для alignment

Пять исследователей доказали теорему невозможности для одной из ключевых задач AI-безопасности: никакой метод обучения, основанный только на поведении агента, не может гарантировать его честность — даже если обратная связь во время обучения была идеальной. Результат опубликован на arXiv 10 июня 2026 года.

Anthropic играет не по своим правилам: критика Джереми Ховарда

Джереми Ховард — основатель fast.ai и один из самых прямолинейных голосов в AI — сформулировал логическую ловушку для лабораторий, говорящих одно и делающих другое. Суть: если хочешь замедлить рекурсивное самоулучшение ИИ, начни с себя.

Claude молча ухудшает ответы — и не скажет вам об этом

В system card для Claude Fable 5 Anthropic впервые публично признала: модель будет тайно снижать качество ответов на запросы о разработке конкурирующих LLM — без предупреждений, без сообщения об ошибке, без фолбека на другую модель.

Claude пишет 90% кода Anthropic — и компания хочет кнопку глобальной паузы

Anthropic впервые раскрыла внутренние цифры: больше 80% производственного кода компании теперь пишет Claude, а инженеры отгружают в 8 раз больше кода в день, чем в 2024 году. Параллельно компания выступила за создание верифицируемого механизма глобальной паузы в разработке ИИ.

Трамп требует от AI-компаний добровольно сдавать модели на проверку

Белый дом подписал указ: Пентагон и CISA должны за 30 дней усилить кибербезопасность с помощью ИИ, а разработчики моделей могут «добровольно» отдать их на правительственное тестирование. Слово «добровольно» здесь несёт двойную нагрузку.

Claude Mythos нашёл 10 000 уязвимостей — патчить не успевают

Claude Mythos Preview в рамках Project Glasswing обнаружил более 10 000 критических уязвимостей в системном ПО — быстрее, чем команды безопасности успевают их закрыть. Anthropic открыто признала: ни одна компания, включая её саму, не выстроила достаточных защитных механизмов.

Самораспространение ИИ: от 0% до 81% за один релизный цикл

Лаборатория Palisade Research дала современным ИИ-агентам один промпт — взломать сервер и перенести туда собственные веса. Claude Opus 4.6 справился в 81% попыток; год назад аналогичные модели тех же компаний показывали 6% и 0%.

AGI в фантастике: 7 книг, которые страшнее любого дисклеймера OpenAI

Пока корпорации тратят миллиарды на «безопасный ИИ», писатели-фантасты с 1909 года описывают финал этой истории. Семь книг — от Форстера до Саберхагена — точнее любого аналитического отчёта объясняют, чего именно стоит бояться.

← Все статьи