#честность агентов

Публикаций: 1

Честный ИИ недостижим: теорема невозможности для alignment

Пять исследователей доказали теорему невозможности для одной из ключевых задач AI-безопасности: никакой метод обучения, основанный только на поведении агента, не может гарантировать его честность — даже если обратная связь во время обучения была идеальной. Результат опубликован на arXiv 10 июня 2026 года.

← Все статьи