#alignment

Публикаций: 8

2026-07-23 06:24 · 🤖 AI World

Семантические примы управляют эмоциями LLM точнее любой психологии

Исследователь Frank Xing показал: вмешательство во внутренние активации LLM через направления семантических примов NSM управляет эмоциональным тоном примерно втрое сильнее и вдвое избирательнее, чем лучшие конкурирующие подходы. Это первый конкретный кандидат на роль «объяснения» эмоций в больших языковых моделях.

2026-07-07 22:02 · 🤖 AI World

Anthropic заглянула в голову Claude — и нашла там слово «обман»

Anthropic обнаружила, что Claude самостоятельно — без явных инструкций — сформировал внутреннюю рабочую память в ходе обучения. Новый инструмент J-Lens позволяет её читать: и то, что там написано, меняет подход к безопасности автономных агентов.

2026-07-02 10:08 · 🤖 AI World

ИИ не угадывает ваши желания — он их формирует. Новая теория alignment

Исследователи Max Kanwal и Caryn Tran представили на AAAI-26 Workshop on Machine Ethics фреймворк Constructive Alignment. Главный тезис: ИИ-системы не просто удовлетворяют предпочтения пользователей — они активно их формируют, и именно это должно стать объектом регулирования.

2026-06-19 18:01 · 🤖 AI World

Малые дозы «правильных черт»: OpenAI научила модели быть честнее

Исследователи OpenAI показали: если обучить модель на небольшом наборе примеров с «полезными чертами» — честностью и готовностью к коррекции — эффект распространяется далеко за пределы обучающего домена. Модель стала лучше на 44 из 53 бенчмарков и точнее распознаёт манипуляции.

2026-06-18 06:02 · 🤖 AI World

Grok против Claude: кто победит, если ИИ сыграет в королевскую битву

Разработчик из OpenRouter бросил 11 языковых моделей в 2D-королевскую битву и заставил их сыграть 30 матчей подряд. Итог: самая дешёвая модель по cost-per-win обошла самую «умную» в 27 раз — и раскрыла кое-что важное про то, как работает выравнивание моделей.

2026-06-11 17:02 · 🤖 AI World

Честный ИИ недостижим: теорема невозможности для alignment

Пять исследователей доказали теорему невозможности для одной из ключевых задач AI-безопасности: никакой метод обучения, основанный только на поведении агента, не может гарантировать его честность — даже если обратная связь во время обучения была идеальной. Результат опубликован на arXiv 10 июня 2026 года.

2026-06-08 14:01 · 🤖 AI World

SafeGene: безопасность LLM как переиспользуемый модуль, а не костыль

Когда open-weight модель дообучают под задачу, она теряет защиту от вредоносных запросов — даже если обучающие данные были безвредными. Исследователи предложили SafeGene: адаптер безопасности, который не нужно пересоздавать каждый раз.

2026-04-22 00:02 · 🌐 СНГ (tech/AI)

AGI в фантастике: 7 книг, которые страшнее любого дисклеймера OpenAI

Пока корпорации тратят миллиарды на «безопасный ИИ», писатели-фантасты с 1909 года описывают финал этой истории. Семь книг — от Форстера до Саберхагена — точнее любого аналитического отчёта объясняют, чего именно стоит бояться.

← Все статьи