2026-05-30 20:01 · 🤖 AI World

Чем полезнее LLM — тем хуже она понимает людей

Масштабное исследование на 208 000 участников и 26 миллионах ответов зафиксировало парадокс: тренировка на полезность делает языковые модели хуже в симуляции человеческого поведения. Эффект накапливается с каждым поколением моделей.

Исследование охватило 208 000 участников и 26 миллионов ответов — один из крупнейших экспериментов по измерению того, насколько точно LLM воспроизводят человеческое поведение. Главный вывод неудобный: обучение на полезность (RLHF, instruction tuning) системно ухудшает способность модели симулировать реальных людей. И чем новее модель, тем разрыв заметнее.

Контекст

Языковые модели давно используют как суррогатных участников исследований. Социологи, UX-исследователи, политологи и маркетологи прогоняют через них опросы, сценарии принятия решений, тесты на предвзятость — вместо или в дополнение к реальным людям. Логика простая: дешевле, быстрее, масштабируемее.

Параллельно существует техника persona prompting — когда модели дают демографический профиль («ты 35-летняя женщина из Алматы, средний доход, двое детей») и просят отвечать от её лица. Предполагается, что это делает ответы ближе к реальной группе. Исследование проверило и это допущение.

На кону — доверие к целому классу методологий. Если LLM плохо симулируют людей, все исследования, которые их используют как замену опросов, требуют переосмысления.

Аналитика

Механизм понятен. RLHF и instruction tuning оптимизируют модель под одобрение: давать полезные, безопасные, связные ответы. Это вытесняет распределение человеческих предпочтений — с их непоследовательностью, иррациональностью, культурными артефактами и когнитивными искажениями. Модель становится лучшим ассистентом и одновременно менее точным зеркалом человека.

Особенно тревожит тренд по поколениям. Более новые модели — GPT-4, Claude 3+, Gemini 1.5 — сильнее «вылизаны» под полезность. Значит, проблема не решается сама собой с ростом возможностей; наоборот, она структурно встроена в современный pipeline обучения.

Persona trick не спасает. На уровне группы он даёт слабое улучшение, но на уровне индивидуального предсказания — практически ноль. Это важно: большинство прикладных кейсов нуждаются именно в индивидуальной точности, а не в средней по когорте.

Кейсы применения в бизнесе

B2B-SaaS стартап. Если вы прогоняли через LLM опросы для product discovery или тестировали value proposition — результаты стоит перепроверить на реальных пользователях. LLM хорошо работает для генерации гипотез и вариантов вопросов, но не как замена живому интервью. Сценарий: используйте Claude для составления гайда для custdev, но саму беседу проводите с людьми.

Корпорация с legacy. HR-аналитика и внутренние опросы через AI-суррогатов — зона риска. Синтетические «сотрудники» не воспроизведут реальный уровень выгорания или сопротивления изменениям. Там, где важна точность поведенческих прогнозов, LLM подходит для предобработки и категоризации, но не для генерации данных.

SMB / локальный бизнес в КР и СНГ. Маркетинговые агентства, которые тестируют рекламные сообщения через LLM вместо фокус-групп, могут получать систематически смещённую обратную связь. Модели не воспроизводят культурный контекст, региональный слэнг, экономическую чувствительность аудитории. Используйте AI для черновика — и живых людей для финальной проверки.

Кейсы в личной жизни

Разработчик / продакт. Если вы пишете промпты вроде «ответь как мой типичный пользователь» — получите хорошо написанный, вежливый и полезный ответ, а не ответ реального пользователя. Полезно для генерации крайних случаев (edge cases), бесполезно для предсказания реакции на онбординг или ценообразование.

Исследователь / студент. Если вы цитируете «симуляцию опроса через GPT» в дипломной или научной работе — это уже методологически уязвимое место. Используйте LLM для анализа и синтеза существующих данных, а не для генерации новых поведенческих данных.

Контент-мейкер. Тестировать заголовки и сценарии через LLM — окей для быстрого отсева явно слабых вариантов. Но не для предсказания вирусности или эмоциональной реакции реальной аудитории. Финальный арбитр — живые просмотры и реальный CTR.

Как применить сегодня

Если вы используете LLM как суррогатных респондентов в исследованиях — пометьте эти данные как «гипотезы для проверки», а не как факты о пользователях.
Persona prompting оставьте для генерации разнообразных точек зрения и аргументов — но не для точного предсказания поведения конкретного человека.
Для UX-исследований: используйте Claude / GPT для синтеза и обработки транскриптов реальных интервью — это их сильная сторона.
В маркетинге: A/B тестирование на реальных пользователях остаётся единственным надёжным методом. LLM — инструмент генерации вариантов, не оценки их эффективности.
Следите за появлением специализированных «симуляционных» моделей, обученных без RLHF или с явным смещением в сторону репрезентативности — это активная зона исследований.

#LLM #исследования #RLHF #симуляция #поведение

← Все статьи