2026-07-02 12:02 · 🤖 AI World

Мораль AI: не правила, а ресурсы — новый фреймворк из AAAI-26

Исследователи из AAAI-26 предложили фреймворк, который переворачивает подход к AI-этике: дело не в том, каким правилам учить модель, а сколько вычислительных ресурсов выделить на моральные рассуждения. Это меняет то, как мы проектируем alignment с нуля.

В апреле 2026 года на воркшопе по машинной этике в рамках AAAI-26 три исследователя — Max Kanwal, Caryn Tran и Patrick Mineault — представили работу «Bounded Morality: Defining the Space of Moral Computation». Суть в одном предложении: мораль — это вычислительная задача с ограниченными ресурсами. Всё остальное следует из этого.

Контекст

Идея «ограниченной рациональности» принадлежит Герберту Саймону — нобелевскому лауреату, который ещё в середине XX века показал: люди принимают решения не как идеальные оптимизаторы, а в рамках когнитивных и временных ограничений. Kanwal, Tran и Mineault делают аналогичный шаг для этики.

Традиционно моральное мышление делили на три теории: деонтология (есть правила — следуй им), консеквенциализм (считай последствия) и этика добродетели (будь хорошим человеком). Каждый подход претендовал быть «правильным» — и каждый ломался в ситуациях, где конкурирующие интересы умножались быстрее, чем росли вычислительные мощности агента.

Авторы вводят два измерения. Moral breadth (широта) — сколько существ и интересов агент считает морально значимыми. Moral depth (глубина) — насколько сложные цепочки выводов он строит, чтобы оценить взаимодействие этих интересов. Ресурсов на оба измерения одновременно не хватает никому — ни человеку, ни языковой модели.

Аналитика

Главный вывод: деонтология, консеквенциализм, этика добродетели — не соперничающие версии истины. Это локально эффективные стратегии для разных режимов нагрузки. Мало времени и ресурсов — следуй правилам (деонтология). Есть вычислительные мощности просчитать последствия — используй консеквенциализм. В сложных социальных контекстах с неполной информацией — опирайся на характер и добродетель. Каждая теория оптимальна в своём регионе пространства moral breadth × moral depth.

Для AI-систем это означает структурный разрыв с текущими подходами. RLHF и preference learning обучают модель имитировать человеческие суждения. Но имитация суждений — не то же самое, что усвоение принципов. Модель, натренированная на одобрении/неодобрении конкретных примеров, не умеет обобщать на ситуации, где breadth или depth выходят за рамки обучающего распределения. Авторы прямо пишут: alignment зависит от масштабирования и распределения вычислительных мощностей для моральных рассуждений, а не от прямого копирования суждений.

«Moral alignment in artificial systems depends on the scaling and allocation of moral reasoning capacity rather than on direct imitation of human judgments»

Фреймворк также вводит формальные понятия moral regret (потери от ресурсных ограничений при моральных решениях) и moral progress (улучшение в условиях этих ограничений). Это делает этику AI измеримой — и даёт инструмент для сравнения моделей по реальной способности к моральным рассуждениям, а не только по соответствию набору аннотаторских предпочтений.

Кейсы применения в бизнесе

B2B-SaaS стартап с AI-агентом в рекрутинге. Агент оценивает резюме. Если alignment настроен только через имитацию исторических HR-решений — модель воспроизводит предвзятость, зашитую в данных. Bounded Morality даёт проектный язык: явно задать breadth (чьи интересы учитывает агент — кандидата, компании, рынка труда в целом?) и depth (агент видит только CV или моделирует долгосрочные последствия найма для команды?). Это проектное решение, которое принимается до обучения, а не постфактум-фикс через правила.

Корпорация с legacy, автоматизирующая кредитные решения. Регулятор требует explainability. Bounded Morality даёт готовый язык для объяснения: «наш агент работает в deontological режиме — соблюдает зафиксированные правила Цифрового кодекса КР, depth намеренно ограничена, breadth зафиксирована на клиенте и банке». Это понятнее регулятору, чем расплывчатое «модель обучена на данных».

SMB в КР, использующий AI-чат-бот для клиентской поддержки. Бот принимает решения о компенсациях и исключениях из политики. Bounded Morality — практический чеклист при настройке: какова breadth (только этот клиент или репутация компании в целом?), какова depth (бот видит один тикет или историю взаимодействий за год?)? Ответы на эти вопросы меняют промпт, архитектуру памяти агента и условия эскалации на человека.

Кейсы в личной жизни

Разработчик, строящий AI-агентов. Теперь есть формальный язык для проектирования поведения. Вместо интуитивного «обучи модель быть хорошей» — конкретный вопрос: «какова breadth и depth для этого use-case?» Это делает поведение агента предсказуемым по проекту, а не только по тестам.

Контент-мейкер, работающий с Claude или GPT ежедневно. Bounded Morality объясняет, почему модели отказывают в одних случаях и соглашаются в других — это не произвол, а ресурсное распределение moral breadth и depth. Понимание этой механики помогает точнее формулировать запросы: явно задавать контекст, чьи интересы затронуты, и насколько глубоко нужно моделировать последствия.

Студент, изучающий AI safety или философию. Bounded Morality — один из редких фреймворков, переводящих этику в вычислительные термины без потери смысла. 24-страничная статья с двумя фигурами написана достаточно формально, но с примерами — хорошая точка входа в intersection компьютерных наук и этической философии.

Как применить сегодня

При проектировании AI-агента добавь в дизайн-документ явные секции: «moral breadth агента» (чьи интересы он учитывает) и «moral depth» (насколько глубоко моделирует последствия). Это заставит команду договориться заранее, а не столкнуться с пограничными кейсами в проде.
Если делаешь RLHF или preference tuning — задай себе вопрос: ты имитируешь человеческие суждения или пытаешься обобщить принципы? Это разные задачи с разными архитектурными требованиями.
Прочитай статью на arXiv (arXiv:2607.00002): особенно полезны секции о moral regret — это потенциальная практическая метрика для сравнения моделей по этическому охвату.
Для AI-продуктов под регулирование (финансы, медицина, HR в КР) — используй язык breadth/depth для объяснения поведения модели регулятору. Он точнее, чем «мы обучили на данных».
Следи за воркшопом AAAI Machine Ethics — это одно из немногих мест, где AI-этика обсуждается с вычислительной строгостью, а не как декларация ценностей.

#AI alignment #этика AI #LLM safety #моральный AI #AAAI

← Все статьи