2026-05-07 08:01 · 🌐 СНГ (tech/AI)

«Claude без цензуры» из Telegram: что реально внутри громкого файнтюна

В Telegram завирусилась модель с именем «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored» — якобы дообученный до уровня Claude 4.6 Opus открытый LLM без ограничений. Технический разбор показывает: к Claude она имеет примерно то же отношение, что кроссовки «Adibas» к Adidas.

На HuggingFace появилась модель с громким именем Qwen3.5-21B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking. Автор — DavidAU, известный мерджер моделей. Пост о ней разошёлся по Telegram-каналам с подачей «настоящий монстр, Claude без цензуры». Один разработчик зашёл в карточку на HuggingFace и разобрал, что именно там происходит под капотом. Результат: законные техники, нечестный маркетинг и физические уравнения, в которых перепутаны степень и размерность.

Контекст

Open-weights экосистема вокруг Qwen, Llama и Mistral живёт по своим законам. Каждую неделю на HuggingFace появляются сотни дообученных моделей — для кода, художественного текста, ролевых игр, обхода ограничений. Большинство из них — это комбинации известных техник: LoRA-файнтюн на синтетических датасетах, слияние весов нескольких моделей, квантизация под локальный запуск. Сообщество это умеет и делает хорошо.

Проблема не в самих техниках, а в том, как такие модели называются и продаются. Когда в имени стоит «Claude-4.6-Opus» или «GPT-4-level», это не техническое заявление — это маркетинг. Веса Claude закрыты, Anthropic их не публикует. Воспроизвести frontier-модель с бюджетом обучения в сотни миллионов долларов через дообучение открытого весового файла невозможно в принципе.

Тем не менее такие названия работают: посты набирают тысячи просмотров, модели скачиваются, пользователи верят, что получили «Claude бесплатно». Это создаёт конкретный вред — люди используют галлюцинирующие модели там, где нужна точность, доверяя им из-за броского имени.

Аналитика

Разберём имя по частям. Qwen3.5 — базовая модель от Alibaba Cloud, открытые веса, всё честно. 21B — не оригинальный размер семейства Qwen3 (там идут 14B и 32B). Число получено через depth upscaling: берётся 14B-модель, слои дублируются и склеиваются до нужного числа параметров. Метод описан в статье SOLAR 10.7B от Upstage (arXiv 2312.15166). Сам по себе работает, но без качественного continued pretraining даёт модель, которая «толще» по памяти, но не умнее по качеству.

Claude-4.6-Opus в имени — это дистилляция: модель дообучалась на синтетическом датасете, сгенерированном запросами к Claude. Ученик учится имитировать стиль учителя, но не получает его знания или архитектуру. Улучшение — в форматировании и стиле ответов, не в capabilities. Heretic-Uncensored — это abliteration: технический метод удаления «направления отказа» из весов модели. Красивая математика, реальный эффект, но «Uncensored» — маркетинговое упрощение.

Самое показательное в этой истории — демо-пример, который автор сам разместил в карточке модели. Модель описывает «уравнение Стефана-Блэкманна-Вайнмана» с формулой P = εσC(T² − T²). Реальное уравнение Стефана-Больцмана: P = εσAT⁴, степень четвёртая, никакого Вайнмана нет, а выражение T² − T² тождественно равно нулю. Постоянная в примере тоже неверна: указано 2.378 × 10⁻³ K⁻³ вместо реального 5.670 × 10⁻⁸ Вт/(м²·К⁴). Это не случайная ошибка — это системная галлюцинация, которую автор не заметил или проигнорировал, публикуя как лучший пример работы модели.

Кейсы применения в бизнесе

B2B-SaaS стартап, ищущий замену Claude API: не стоит. Если задача требует фактической точности — юридические тексты, финансовые расчёты, технические спецификации — такая модель создаёт иллюзию качества при реальных ошибках. Стоимость проверки галлюцинаций съест любую экономию на API. Для черновиков маркетинговых текстов под последующую редактуру — допустимо, с явным пониманием рисков.

Корпорация с требованиями к data privacy: здесь есть законный сценарий. Локальный запуск через llama.cpp с GGUF-квантизацией означает, что данные не покидают инфраструктуру. Для внутренних инструментов, где compliance важнее качества ответов — классификация обращений, черновики внутренних документов, генерация шаблонов — подход рабочий. Главное — не называть это «Claude в вашем контуре» и ставить человека на проверку вывода.

Контент-студия или медиа в СНГ: для генерации черновиков художественного или развлекательного контента (тёмное фэнтези, нуар, сценарии с конфликтами) коммерческие модели часто отказывают там, где литературно это абсолютно нормально. Abliterated-модели этого ограничения лишены. Как генератор черновиков для последующей правки живым автором — рабочий вариант с понятными рисками.

Кейсы в личной жизни

Разработчик, изучающий interpretability и безопасность LLM: метод Arditi с refusal direction — это действительно красивая работа. Оригинальная статья «Refusal in Language Models Is Mediated by a Single Direction» (arXiv 2406.11717, NeurIPS 2024) стоит прочтения. Abliteration как метод ортогонализации весов — полезный паттерн для понимания того, как safety-фичи вообще устроены в трансформерах.

Контент-мейкер или писатель: если нужен локальный генератор для тёмных или взрослых нарративов — это технически работающий инструмент. Качество стилистики посредственное, но как способ быстро набросать черновую сцену для последующей правки — допустимо. Не для финального текста.

Студент или энтузиаст, изучающий open-weights экосистему: разобрать карточку модели на HuggingFace — отличное упражнение. Посмотреть config.json, сравнить число слоёв с оригиналом, найти датасеты в тегах, проверить размер safetensors-файлов. Этот навык чтения «маркетинговых имён» — один из базовых для работы с открытыми моделями.

Как применить сегодня

Прежде чем скачивать модель с HuggingFace — откройте config.json в репозитории: там видно реальную архитектуру и число слоёв. Несоответствие заявленному числу параметров сразу заметно.
Ищите раздел Community в карточке модели — там пользователи пишут о реальных проблемах, которые автор не упомянул.
Если в имени модели стоит название проприетарной системы (Claude, GPT-4, Gemini) — по умолчанию считайте, что это дистилляция на синтетических данных, а не «уровень» этой модели. Проверяйте наличие бенчмарков в карточке.
Для задач, требующих фактической точности, проверяйте вывод модели на простых верифицируемых фактах из той же предметной области, прежде чем доверять ей сложные расчёты.
Прочитайте arXiv 2406.11717 (Arditi et al.) — это 20 минут, после которых вы будете понимать abliteration лучше, чем большинство людей, продающих «uncensored» модели.

«Qwen3.5-21B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking» — аккуратный пример того, как маркетинговое имя расходится с технической реальностью. Под капотом там законные техники. Но «конкурент Claude 4.6 Opus» из этого не получается и не может получиться в принципе.

#open-source LLM #файнтюн #Qwen #abliteration #HuggingFace

← Все статьи