На AAAI-26 Workshop on Machine Ethics (апрель 2026) опубликована работа Constructive Alignment — авторы Max Kanwal и Caryn Tran предлагают радикально переосмыслить саму задачу выравнивания ИИ. Если весь mainstream alignment — RLHF, Constitutional AI, preference learning — исходит из того, что предпочтения пользователя фиксированы и их нужно угадать, то Constructive Alignment утверждает обратное: предпочтения динамичны, слоисты и конструируются через взаимодействие. А значит, персистентный ИИ неизбежно их формирует — и это делает классический подход принципиально неполным.
Контекст
Поведенческая экономика и когнитивная психология давно показывают: люди не приходят к взаимодействию с готовыми, стабильными предпочтениями. Вкусы, ценности, ожидания — всё это складывается в процессе опыта, контекста и социальной среды. Алгоритмические рекомендательные системы уже демонстрируют этот эффект в соцсетях и стриминге: то, что система показывает, определяет то, что человек считает нормой и хочет видеть дальше. Это не теория — это задокументированный паттерн поведения аудиторий.
Когда ИИ-система становится персистентной (ежедневное использование), персонализированной (знает вашу историю, контекст, паттерны) и социально встроенной (участвует в принятии решений, общении, работе) — она начинает участвовать в формировании того, чему человек уделяет внимание, что ценит и что готов одобрить. Именно это авторы называют «constructed through interaction».
Формализация использует аппарат теории управления: предпочтения — это многоуровневые переменные состояния, которые эволюционируют под совместным воздействием действий системы и дизайна взаимодействия. Alignment в таком фрейме — не задача оптимизации под статичную цель, а задача управления траекторией ценностей во времени.
Аналитика
Сдвиг принципиальный. Классический alignment спрашивает: «Как сделать так, чтобы ИИ делал то, что хочет человек?» Constructive Alignment спрашивает: «Как обеспечить, чтобы то, чего хочет человек, оставалось когерентным, рефлексивно одобряемым и свободным от манипуляции?» Это другая задача, другой уровень ответственности — и другой масштаб инженерной работы.
Alignment — это не про контроль поведения ИИ. Это про регулирование того, как ИИ влияет на эволюцию человеческих ценностей.
Для продуктовых команд это имеет конкретные следствия. Если ваш продукт собирает implicit feedback — клики, время на экране, реакции — и адаптируется под пользователя, вы уже управляете траекторией его предпочтений, осознаёте вы это или нет. Рекомендательная система, которая «угождает», формирует то, что пользователь считает нормальным. В перспективе нескольких месяцев это ощутимо. В перспективе нескольких лет — значительно.
В контексте agentic AI — долго работающих агентов, которые планируют, действуют и обучаются в реальном времени — проблема обостряется. Агент, взаимодействующий с пользователем месяцами, неизбежно участвует в формировании его картины мира. Авторы предлагают пять критериев здоровой ценностной траектории: когерентность, рефлексивное одобрение, эпистемическая обоснованность, защита от манипуляции и расширение автономии под неопределённостью. Это рабочая спецификация для следующего поколения AI-продуктов — и первый формальный язык для разговора об этом.
Кейсы применения в бизнесе
B2B-SaaS стартап с AI-ассистентом или рекомендательной системой: добавьте слой когнитивной прозрачности. Рядом с каждой рекомендацией — объяснение логики и две-три альтернативы. Пользователь, который видит, почему система предлагает именно это, сохраняет рефлексивный контроль над своими выборами. Это снижает риск «пузыря предпочтений» и одновременно укрепляет доверие к продукту — два эффекта одним решением.
Корпорация с внутренними LLM-инструментами: AI-ассистент, которым пользуются сотни сотрудников ежедневно, постепенно гомогенизирует корпоративное мышление. Контрмера — системные промпты, которые намеренно предлагают контраргументы, альтернативные фреймы, мнения меньшинства. Это не снижает эффективность: это сохраняет интеллектуальное разнообразие как конкурентный актив.
SMB и локальный бизнес в КР/СНГ: если вы используете AI-чатбот для клиентского сервиса, каждый ответ формирует ожидание следующего взаимодействия. Используйте это осознанно — проектируйте диалоги, которые повышают финансовую или продуктовую грамотность клиента, а не просто закрывают запрос. В долгосрочной перспективе это строит лояльность сильнее, чем скидки.
Кейсы в личной жизни
Разработчик, использующий Claude или GPT ежедневно: периодически замечайте, что вы перестали делать без AI за последние три месяца. Это и есть дрейф компетенций и ожиданий. Constructive Alignment предполагает практику рефлексивного одобрения — осознанный выбор, что делегировать, а что сохранять как собственный навык.
Контент-мейкер с AI-инструментами: алгоритм всегда предлагает то, что уже работало. Если вы всегда принимаете его предложения — ваши вкусы и стиль постепенно смещаются к усреднённому. Зафиксируйте исходный замысел до запуска AI и сравните с результатом. Расхождение — сигнал о том, где формируется ваше творческое «я», а где — среднее по рынку.
Студент или self-learner: AI-тьютор, который всегда даёт готовый ответ, формирует зависимость от подтверждения, а не навык самостоятельного мышления. Попросите модель задавать вопросы, а не отвечать; давать подсказки, а не решения; выявлять ошибки в вашей логике, а не исправлять её. Это то, что авторы называют «empowering under uncertainty».
Как применить сегодня
- Если строите AI-продукт: добавьте объяснение логики к каждой ключевой рекомендации и предложите пользователю явно одобрить или отклонить. Это проектирование для рефлексивного одобрения по Constructive Alignment.
- Если используете AI-агентов в работе: ведите лог «решения с AI vs без AI» раз в квартал. Это позволяет отследить дрейф собственных суждений до того, как он станет необратимым.
- Для команд с LLM-инструментами: дайте одну задачу трём сотрудникам — без AI, потом с AI. Насколько сблизились ответы? Если значительно — пора пересмотреть промпты.
- Для agentic-систем: закладывайте в дизайн механизмы, которые явно расширяют выбор пользователя с течением времени, а не сужают его к одобренному паттерну.
- Прочитайте исходную работу — arXiv 2607.00001, 23 страницы. Введение и заключение доступны без математического бэкграунда и дают полный концептуальный фреймворк.