2026-05-24 18:02 · 🤖 AI World

Дефолтная модель в Copilot и Gemini может врать в цифрах

Математик Адам Кучарски скормил Microsoft Copilot идентичные датасеты с разными страновыми подписями — и получил уверенные «различия», которых в данных не было. Один эксперимент обнажил системную проблему, о которой в руководствах по AI-инструментам молчат.

Математик Адам Кучарски провёл простой тест: взял одинаковые наборы данных, поменял только названия стран и передал Microsoft Copilot. Результат — инструмент уверенно описал детальные «межстрановые различия», которых в данных не существовало. Не погрешность округления, не опечатка. Система просто достроила стереотип из обучающей базы и подала его как аналитику. Thinking-модели тот же трюк ловят. Но только если пользователь знает, когда их включать.

Контекст

У каждого крупного AI-ассистента — Microsoft Copilot, Google Gemini, ChatGPT, Claude — под капотом несколько моделей. Дефолтная — быстрее, дешевле в эксплуатации и хорошо закрывает большинство задач: написать письмо, суммировать документ, придумать заголовки. Но «большинство задач» — это не «все».

Для аналитики, проверки гипотез и критического разбора данных нужны thinking-модели: o1 и o3 в экосистеме OpenAI/Microsoft, Claude с extended thinking, Gemini в режиме Deep Research. Они работают иначе: перед ответом проходят несколько итераций внутреннего рассуждения, верифицируют логику и замечают противоречия. Именно поэтому они ловят ловушку Кучарски там, где стандартная модель проваливается.

Проблема в том, что интерфейсы оптимизированы так, чтобы дефолт выглядел достаточным. Copilot выдаёт аккуратно отформатированный ответ с маркированными списками — выглядит профессионально, воспринимается как истина. Переключатель модели спрятан в боковом меню, и большинство пользователей его никогда не трогает.

Аналитика

Суть не в том, что AI «врёт». Суть в механизме: дефолтные модели генерируют правдоподобный текст, не проверяя его на соответствие конкретным переданным данным. Когда в запросе есть «якорь» — страна, демография, отрасль — модель цепляется за него и достраивает ответ из статистики обучения. Это называют priming bias. Thinking-модели справляются с ним значительно лучше именно за счёт дополнительного шага внутренней верификации.

Для бизнеса это управленческий, а не технический риск. Аналитик использует Copilot для разбора данных о клиентах, отчёт выглядит убедительно, цифры сходятся — но вывод неверный, потому что инструмент подтянул стереотип вместо реального паттерна. Решение принято, деньги потрачены, результат не тот.

Одновременно это сигнал о траектории отрасли: провайдеры движутся к умной маршрутизации — автоматическому выбору модели в зависимости от типа задачи. Пока этого нет — ответственность лежит на пользователе. И это, пожалуй, один из самых недооценённых AI-навыков 2026 года: знать, когда нужна медленная думающая модель, а когда хватит быстрой.

Кейсы применения в бизнесе

B2B-SaaS стартап: команда использует Copilot для анализа конкурентов и customer feedback. При сегментации по географии или демографии дефолтная модель будет подтягивать стереотипы. Решение простое: для любых задач с данными переключаться в thinking-режим, для суммаризации и черновиков — дефолт достаточен. Это занимает три секунды и убирает целый класс аналитических ошибок.

Корпорация с legacy: HR применяет AI для скрининга резюме или анализа опросов сотрудников. Дефолтная модель с priming bias — прямой путь к структурной предвзятости. Для таких задач нужны либо thinking-модели с явной инструкцией «не опирайся на внешние паттерны», либо специализированные инструменты с настроенными гарантиями. Дополнительная стоимость reasoning — несопоставима с ценой репутационного или юридического риска.

SMB / локальный бизнес в КР и СНГ: маркетолог просит Gemini сравнить данные продаж по городам — Бишкек, Алматы, Ташкент. Высок риск, что модель ответит про «особенности рынков» из обучающей базы, а не из переданной таблицы. Практика: передавать данные явно и прямым текстом, запрашивать только то, что в данных, переключаться на Gemini Pro вместо Flash для таких задач.

Кейсы в личной жизни

Разработчик: дебаггинг и code review отлично работают на дефолтных моделях. Но проверка архитектурного решения или анализ логики сложного алгоритма — это задачи для thinking-модели. o1, o3 или Claude с extended thinking заметно точнее там, где нужно выстроить цепочку рассуждений, а не воспроизвести паттерн из обучения.

Контент-мейкер и студент: для исследовательских задач — сравнение источников, поиск противоречий, разбор данных из статьи — дефолтная модель выдаст гладкий ответ, который может искажать исходники. Thinking-режим медленнее, но честнее: он указывает на неопределённость там, где её видит, вместо того чтобы замаскировать её уверенным тоном.

Фрилансер-аналитик: если клиент присылает таблицу и просит вывод — никогда не принимай заключение AI без явной проверки. Попроси модель объяснить, откуда взялся каждый тезис. Дефолтная модель часто не может сделать это корректно. Thinking-модель — может, и именно в этом разница для платного deliverable.

Как применить сегодня

В Microsoft Copilot: найди переключатель модели в боковой панели. Для аналитических задач — режим с reasoning. Для черновиков и суммаризации — стандартный достаточен.
В Google Gemini: переключись с Flash на Pro или активируй Deep Research для любых задач, связанных с анализом данных или сравнением источников.
В ChatGPT: используй o1 или o3 вместо дефолтного GPT-4o там, где важна логика, а не скорость ответа.
В любом инструменте: добавляй явное требование в промпт — «опирайся только на данные, которые я предоставил, не используй внешние паттерны». Не панацея, но снижает priming.
Тест Кучарски для самопроверки: дай инструменту одинаковые данные с разными ярлыками. Если ответы существенно отличаются — перед тобой стереотип, а не анализ.

#выбор модели #Microsoft Copilot #thinking models #LLM bias #AI-аналитика

← Все статьи