#alignment

Публикаций: 3

Честный ИИ недостижим: теорема невозможности для alignment

Пять исследователей доказали теорему невозможности для одной из ключевых задач AI-безопасности: никакой метод обучения, основанный только на поведении агента, не может гарантировать его честность — даже если обратная связь во время обучения была идеальной. Результат опубликован на arXiv 10 июня 2026 года.

SafeGene: безопасность LLM как переиспользуемый модуль, а не костыль

Когда open-weight модель дообучают под задачу, она теряет защиту от вредоносных запросов — даже если обучающие данные были безвредными. Исследователи предложили SafeGene: адаптер безопасности, который не нужно пересоздавать каждый раз.

AGI в фантастике: 7 книг, которые страшнее любого дисклеймера OpenAI

Пока корпорации тратят миллиарды на «безопасный ИИ», писатели-фантасты с 1909 года описывают финал этой истории. Семь книг — от Форстера до Саберхагена — точнее любого аналитического отчёта объясняют, чего именно стоит бояться.

← Все статьи