Исследование охватило 208 000 участников и 26 миллионов ответов — один из крупнейших экспериментов по измерению того, насколько точно LLM воспроизводят человеческое поведение. Главный вывод неудобный: обучение на полезность (RLHF, instruction tuning) системно ухудшает способность модели симулировать реальных людей. И чем новее модель, тем разрыв заметнее.
Контекст
Языковые модели давно используют как суррогатных участников исследований. Социологи, UX-исследователи, политологи и маркетологи прогоняют через них опросы, сценарии принятия решений, тесты на предвзятость — вместо или в дополнение к реальным людям. Логика простая: дешевле, быстрее, масштабируемее.
Параллельно существует техника persona prompting — когда модели дают демографический профиль («ты 35-летняя женщина из Алматы, средний доход, двое детей») и просят отвечать от её лица. Предполагается, что это делает ответы ближе к реальной группе. Исследование проверило и это допущение.
На кону — доверие к целому классу методологий. Если LLM плохо симулируют людей, все исследования, которые их используют как замену опросов, требуют переосмысления.
Аналитика
Механизм понятен. RLHF и instruction tuning оптимизируют модель под одобрение: давать полезные, безопасные, связные ответы. Это вытесняет распределение человеческих предпочтений — с их непоследовательностью, иррациональностью, культурными артефактами и когнитивными искажениями. Модель становится лучшим ассистентом и одновременно менее точным зеркалом человека.
Особенно тревожит тренд по поколениям. Более новые модели — GPT-4, Claude 3+, Gemini 1.5 — сильнее «вылизаны» под полезность. Значит, проблема не решается сама собой с ростом возможностей; наоборот, она структурно встроена в современный pipeline обучения.
Persona trick не спасает. На уровне группы он даёт слабое улучшение, но на уровне индивидуального предсказания — практически ноль. Это важно: большинство прикладных кейсов нуждаются именно в индивидуальной точности, а не в средней по когорте.
Кейсы применения в бизнесе
B2B-SaaS стартап. Если вы прогоняли через LLM опросы для product discovery или тестировали value proposition — результаты стоит перепроверить на реальных пользователях. LLM хорошо работает для генерации гипотез и вариантов вопросов, но не как замена живому интервью. Сценарий: используйте Claude для составления гайда для custdev, но саму беседу проводите с людьми.
Корпорация с legacy. HR-аналитика и внутренние опросы через AI-суррогатов — зона риска. Синтетические «сотрудники» не воспроизведут реальный уровень выгорания или сопротивления изменениям. Там, где важна точность поведенческих прогнозов, LLM подходит для предобработки и категоризации, но не для генерации данных.
SMB / локальный бизнес в КР и СНГ. Маркетинговые агентства, которые тестируют рекламные сообщения через LLM вместо фокус-групп, могут получать систематически смещённую обратную связь. Модели не воспроизводят культурный контекст, региональный слэнг, экономическую чувствительность аудитории. Используйте AI для черновика — и живых людей для финальной проверки.
Кейсы в личной жизни
Разработчик / продакт. Если вы пишете промпты вроде «ответь как мой типичный пользователь» — получите хорошо написанный, вежливый и полезный ответ, а не ответ реального пользователя. Полезно для генерации крайних случаев (edge cases), бесполезно для предсказания реакции на онбординг или ценообразование.
Исследователь / студент. Если вы цитируете «симуляцию опроса через GPT» в дипломной или научной работе — это уже методологически уязвимое место. Используйте LLM для анализа и синтеза существующих данных, а не для генерации новых поведенческих данных.
Контент-мейкер. Тестировать заголовки и сценарии через LLM — окей для быстрого отсева явно слабых вариантов. Но не для предсказания вирусности или эмоциональной реакции реальной аудитории. Финальный арбитр — живые просмотры и реальный CTR.
Как применить сегодня
- Если вы используете LLM как суррогатных респондентов в исследованиях — пометьте эти данные как «гипотезы для проверки», а не как факты о пользователях.
- Persona prompting оставьте для генерации разнообразных точек зрения и аргументов — но не для точного предсказания поведения конкретного человека.
- Для UX-исследований: используйте
Claude / GPTдля синтеза и обработки транскриптов реальных интервью — это их сильная сторона. - В маркетинге: A/B тестирование на реальных пользователях остаётся единственным надёжным методом. LLM — инструмент генерации вариантов, не оценки их эффективности.
- Следите за появлением специализированных «симуляционных» моделей, обученных без RLHF или с явным смещением в сторону репрезентативности — это активная зона исследований.