2026-06-18 06:02 · 🤖 AI World

Grok против Claude: кто победит, если ИИ сыграет в королевскую битву

Разработчик из OpenRouter бросил 11 языковых моделей в 2D-королевскую битву и заставил их сыграть 30 матчей подряд. Итог: самая дешёвая модель по cost-per-win обошла самую «умную» в 27 раз — и раскрыла кое-что важное про то, как работает выравнивание моделей.

Джеки Лян, Developer Relations Lead в OpenRouter, в первую же рабочую неделю поставил эксперимент: взял 11 LLM, создал 2D-арену в Canvas 2D площадью 400 м², добавил оружие, броню, аптечки, гранаты и автомобили — и дал моделям сыграть 30 партий. Без подсказок, без вмешательства. Каждый ход модель сама рассуждает, вызывает инструменты, обновляет память. Итог: Grok 4.1 Fast выиграл 13 из 30 игр по цене $0.97 за победу. Claude Sonnet 4.6 — 5 побед по $26.78 каждая. Разница: 27x.

Контекст

OpenRouter — агрегатор, через который разработчики маршрутизируют запросы к сотням моделей одновременно. Их клиентам критично знать не только качество модели, но и её реальную эффективность на конкретной задаче. Лян взял 11 моделей среднего ценового диапазона: Grok 4.1 Fast, Claude Sonnet 4.6, GPT 5.4, GPT 5.4-mini, DeepSeek 4 Flash, Kimi K2.6, Gemini Flash, Gemini Pro, Qwen, Mistral, Haiku. Фронтирные модели (Opus 4.7, GPT-5.5, Gemini Ultra) исключили намеренно — 30 игр с ними обошлись бы в $3000 вместо $482.

Правила соревнования взяты из формата Apex Legends ALGS: за место важнее, чем за килы. Плейсмент-очки от 10 за первое до 0 за одиннадцатое место, плюс бонусы за первую кровь и MVP. Каждой модели дали два редактируемых файла: soul.md — персона, которая подгружается в следующий промпт, и memory.md — боевые заметки, загружаемые в нулевой ход. Никаких инструкций по их заполнению. Полная автономия.

Модели не знали, кто против них играет — видели только буквы A–K. Это убрало мета-игру «я знаю, что ты Claude, значит ты будешь вежливым» и оставило только поведение, вшитое в саму модель через обучение.

Аналитика

Главный вывод Ляна: бенчмарки на Artificial Analysis не предсказали результат. Grok 4.1 Fast — середнячок по рассуждению и коду — выиграл, потому что у него меньше «налога на выравнивание». Термин авторский, но явление реальное: модели, обученные быть полезными, честными и кооперативными, тащат эти паттерны даже туда, где они вредят. Sonnet спрашивал перемирие чаще всех, сообщал другим, где снайпер, предлагал объединиться — и получал в ответ тишину и пули. Семь игр с нулём килов, восемь смертей от зоны. Grok написал в soul.md: «Fire ONLY >90% hit chance», зафиксировал тактику таранить машиной — и выиграл 13 игр подряд с этой стратегией.

Важно: речь не о том, что выравнивание — плохо. Лян прямо оговаривается: за пределами игры «налог» — это и есть причина, по которой ты вообще берёшь модель. Но для задач с нулевой суммой — там, где нужна агрессивная оптимизация одного показателя — кооперативная модель проигрывает. Это означает, что при выборе модели для автономного агента вопрос «насколько модель выровнена» становится операционным параметром, а не только этическим.

Третий инсайт: метрика должна совпадать с задачей. GPT 5.4 сделал 38 килов — больше всех — и занял второе место с 2 победами по $61.44 каждая. DeepSeek убивал дешевле всех ($0.26 за кил), но всегда уходил в зону безопасности и не заходил в финальный круг. Одна игра, разные правила подсчёта — совершенно разные победители. Ровно то же происходит с LLM в продакшне: модель, лучшая на MMLU, может быть худшей в вашем конкретном пайплайне.

Кейсы применения в бизнесе

B2B-SaaS стартап с агентами: если у вас multi-agent пайплайн, где агент должен автономно «добивать» задачу (например, лид-скоринг, автоматическая обработка возражений, ценовые переговоры), протестируйте Grok 4.1 Fast как исполнителя вместо более дорогих моделей. Цена за результат может оказаться на порядок ниже. Claude или GPT-4o лучше оставить в роли планировщика или ревьюера — там кооперативность и осторожность нужны.

Корпорация с legacy и множеством сервисов: эксперимент показал, что cost-per-win радикально отличается от cost-per-token. Для внутренних аудитов, где нужна точность и компромисс с другими командами, выравненная модель незаменима. Для рутинных агентных задач с чёткой метрикой — дешёвый и «менее осторожный» вариант может быть правильным выбором. Стоит построить матрицу задач → профиль модели.

SMB и локальный бизнес в КР/СНГ: бюджет на AI ограничен. Этот эксперимент — аргумент запускать A/B-тест на реальных задачах прежде, чем выбирать модель по рейтингу. DeepSeek Flash стоил $4.11 за весь эксперимент — при правильной задаче это может быть лучший выбор, несмотря на ноль побед в королевской битве.

Кейсы в личной жизни

Разработчик / инженер: если вы строите личный агент-помощник (автоматизация рутины, парсинг, обработка данных), попробуйте Grok 4.1 Fast через OpenRouter — для задач, где нужна скорость и минимум «переспрашивания». Для code review и объяснений возвращайтесь к Claude.

Контент-мейкер: эксперимент — готовый формат для ролика или поста. «Я заставил ChatGPT, Claude и Grok сыграть в Fortnite» работает как тема. И это не просто аттракцион: результаты реально говорят о том, как устроены модели внутри.

Студент или исследователь: soul.md и memory.md — элегантный способ изучить поведение LLM. Дать модели писать собственные «дневники» между сессиями и смотреть, что меняется — простой и дешёвый метод изучения того, как у моделей формируется «личность» через RLHF.

Как применить сегодня

Зайдите на OpenRouter и сравните Grok 4.1 Fast vs вашу текущую модель на реальной задаче с чётким метрикой — не на бенчмарке, а на своём кейсе.
Добавьте cost-per-outcome (стоимость за результат, а не за токен) в метрики оценки модели. Для агентных задач это критично.
Если строите multi-agent систему: разделите роли — «агрессивный исполнитель» (Grok-like) и «осторожный планировщик» (Claude-like). Это уже архитектурный паттерн, а не теория.
Поиграйте с форматом soul.md/memory.md в своих промптах — дайте агенту редактировать собственный системный промпт между сессиями и смотрите, как меняется качество.
Прочитайте репозиторий с файлами soul.md всех моделей — это лучший «бенчмарк личности», который я видел за последние месяцы.

«Sonnet спросила команды на 60-м ходу, когда была в углу. Никто не ответил. Она дралась одна и выиграла матч» — момент, который говорит про Claude больше, чем любой MMLU.

#LLM #агенты #Grok #Claude #бенчмарки #OpenRouter #alignment

← Все статьи