Blog

Grok Build : 15 fois Claude Code, 10 points en dessous

Grok

Le 14 mai, xAI lance Grok Build. Plus cher, moins fort au benchmark, et un témoignage Musk qui change la lecture du produit. Décryptage.

Trente avril 2026, tribunal fédéral de Californie. Sous serment, Elon Musk classe les leaders mondiaux de l'IA : Anthropic d'abord, puis OpenAI, Google, les modèles open-source chinois. Son propre xAI ? Dernier. Quatorze jours plus tard, ce même xAI lance Grok Build, un agent de code en ligne de commande positionné face à Claude Code, à un prix qui dépasse celui d'Anthropic d'un facteur cinq à quinze. Pour dix points en dessous au benchmark. Voilà le grand écart.

Ce que xAI a vraiment livré le 14 mai

Grok Build est un agent de code en ligne de commande, dans la lignée de Claude Code et de Codex CLI. Tu l'installes en une commande, tu lui parles dans ton terminal, il édite tes fichiers, lance des commandes shell, et orchestre des sous-tâches. L'interface utilise ratatui, un framework Rust pour les TUI, ce qui lui donne un rendu visuel soigné (un ingénieur xAI a confirmé le choix dans le thread Hacker News du lancement).

14 mai 2026
lancement officiel
99 - 299 $/mois
ticket d'entrée SuperGrok Heavy
2 M tokens
contexte Heavy (vs 200K Claude)
8 agents
parallèles maximum

Sous le capot, deux modèles cohabitent. grok-code-fast-1 est le moteur rapide pour la majorité des appels, avec une fenêtre de 256 000 tokens et un tarif API de 0,20 /1,50/ 1,50 par million de tokens en input/output. Grok 4.3 Heavy, accessible via SuperGrok Heavy, monte le contexte à 2 millions de tokens et orchestre une architecture multi-agents (officiellement jusqu'à 8 en parallèle, répartis sur deux modèles).

Quatre conventions héritées de l'écosystème Claude Code sont supportées nativement : AGENTS.md pour la doc projet, les Skills, les MCP servers, et les hooks. Bonne pratique, mais aussi aveu : xAI ne réinvente pas la convention, il l'adopte.

Le mur du prix : 5 à 15 fois Claude Code

C'est ici que le produit perd la plupart des candidats. Grok Build n'est pas vendu à l'unité : il est verrouillé derrière SuperGrok Heavy, le tier le plus haut de xAI. Le tarif d'introduction de 99 /moispendantsixmoispasseaˋ299/mois pendant six mois passe à 299 /mois ensuite. Aucun mécanisme public de remboursement partiel ou de garantie de retention n'a été communiqué.

OutilTarif mensuelModèle inclusSWE-bench Verified
Claude Code Pro20 $Sonnet 4.679,6 %
Claude Code Max100 - 200 $Sonnet + Opus80,9 %
Codex CLI20 $GPT-5.x77,3 %
Grok Build (intro)99 $Grok 4.3 Heavy70,8 % (interne xAI)
Grok Build (standard)299 $Grok 4.3 Heavy70,8 % (interne xAI)

Le verdict est immédiat dans la communauté indie. DEV Community résume :

For most indie hackers running small-to-medium SaaS products on Claude Code today, the honest answer is: stay where you are.

DevToolPicks· DEV Communitydev.to, 15 mai 2026

Et un développeur sur Hacker News, en une ligne :

More expensive, as good or worse at the job, and it runs in the terminal.

~Commentaire Hacker News, 14 mai 2026

Pour comparer, Claude Code dépasse à lui seul 2,5 milliards de dollars de revenu annualisé en avril 2026 chez Anthropic. C'est le produit qui croît le plus vite dans toute l'histoire de la maison. Grok Build entre sur un marché déjà installé, à un prix qui exclut sa frange la plus active : les solos, les open-sourceurs, les builders qui font tourner les démos sur YouTube.

Le mur du bench : dix points en dessous, peut-être plus

Sur SWE-bench Verified, le benchmark de référence pour les agents de code, xAI annonce 70,8 % pour grok-code-fast-1. C'est le chiffre qui apparaît sur la page d'annonce officielle et qui a été repris par toute la presse spécialisée.

Claude Code (Opus 4.5)
80.9 %
Claude Code (Sonnet 4.6)
79.6 %
Codex CLI (GPT-5.x)
77.3 %
Grok Build (xAI interne)
70.8 %
Grok Build (vals.ai tiers)
57.6 %
SWE-bench Verified. Plus haut est mieux.

Le problème : ce 70,8 % est mesuré en interne par xAI, sur leur propre harness, sans réplication tierce publiée au moment du lancement. La plateforme vals.ai, qui audite les benchmarks de modèles de fondation, mesure 57,6 % sur le même test, soit treize points en dessous du chiffre officiel. xAI n'a pas commenté l'écart à ce jour.

xAI elle-même a anticipé en posant un disclaimer sur son blog : "SWE-bench benchmarks don't fully reflect the nuances of real-world software engineering." Phrase honnête, mais aussi tactique classique : prévenir que le score est imparfait quand on sait qu'il est bas.

Ce qui est honnêtement nouveau

Tout ne se résume pas au prix et au bench. Grok Build apporte trois choses que Claude Code et Codex CLI n'ont pas, et qu'il faut reconnaître.

Plan Mode. Avant toute modification de fichier, l'agent produit un plan complet d'exécution et te le présente. Tu peux le commenter, le modifier, le rejeter, avant que la moindre ligne ne soit touchée. xAI décrit le workflow comme :

Present the full execution plan first before any code changes occur, allowing developers to review, comment, and modify steps upfront with clear diffs displayed afterward.

xAI, doc officielle· Documentation Grok Buildtechloy.com, 15 mai 2026

C'est une vraie différence avec Claude Code, qui agit puis montre les diffs. Plan Mode renverse l'ordre. Sur des tâches sensibles (migration, refactor cross-fichiers), c'est un filet précieux.

Capture d'écran de Grok Build CLI en Plan Mode
Source : kingy.ai. Le terminal Grok Build présente le plan complet avant la moindre édition.

Local-first et air-gap. Le code reste sur la machine ; rien dans le codebase n'est transmis aux serveurs xAI pendant une session. Une fois installé, l'outil fonctionne en environnement isolé. Pour les boîtes avec contraintes de confidentialité strictes (banque, défense, R&D sensible), c'est un argument réel.

Contexte 2 millions de tokens (Heavy). Claude Code plafonne à 200 000, Opus 4.7 monte à 1 million. Sur un monorepo de plusieurs centaines de milliers de lignes, le facteur 10 fait une différence concrète : moins de chunking, moins de RAG, plus de contexte direct.

À cela s'ajoutent les 8 agents parallèles (architecture annoncée), le support natif des MCP servers et de la convention AGENTS.md, et un Arena Mode où plusieurs agents résolvent le même problème en compétition et leurs sorties sont scorées avant présentation. L'Arena Mode reste annoncé sans roadmap de livraison publique.

L'aveu qui change la lecture du produit

Le 30 avril 2026, dans son propre procès contre OpenAI (Musk v. Altman, tribunal fédéral de Californie), Musk a témoigné sous serment. Question directe d'un avocat de la défense : xAI a-t-elle utilisé des techniques de distillation sur les modèles OpenAI pour entraîner Grok ?

Partly.

~Elon Musk, sous serment, 30 avril 2026

La distillation consiste à interroger massivement un modèle concurrent (en l'occurrence GPT-4o, GPT-5, etc.) et à utiliser ses réponses pour entraîner son propre modèle. C'est techniquement légal dans certains cadres, c'est interdit par les ToS d'OpenAI, et c'est éthiquement discutable quand on poursuit la même entreprise pour trahison de sa mission non-profit. Musk a justifié :

It is standard practice to use other AIs to validate your AI.

"Validate" est un choix de mot. La question était sur l'entraînement, pas la validation. Mais le mot est posé, et il reste.

L'ironie du ranking

La même semaine, toujours sous serment, Musk a livré son propre classement des leaders IA mondiaux. Sans hiérarchie marketing, sans punchline X. Sa réponse, en clair : Anthropic premier, puis OpenAI, puis Google, puis les modèles open-source chinois, et xAI dernier. Il a précisé que xAI était "beaucoup plus petite" avec "seulement quelques centaines d'employés".

Deux semaines plus tard, ce même xAI lance Grok Build, premium à 299 $/mois, et le positionne contre Claude Code, qu'il dit lui-même être le produit du leader mondial. Lis cette phrase deux fois.

Et le contexte est encore plus net. En janvier 2026, Anthropic a bloqué l'accès à Claude pour les ingénieurs xAI après avoir découvert qu'ils utilisaient Claude via Cursor pour développer Grok Build. C'est l'événement qui a, en partie, poussé xAI à accélérer son agent maison. La position de Musk est donc : Anthropic est le leader, j'utilisais leur outil pour bâtir le mien, ils m'ont coupé l'accès, je sors un concurrent 15 fois plus cher pour 10 points de moins.

  1. Jan 2026
    Anthropic bloque les ingés xAI

    Anthropic découvre que des ingénieurs xAI utilisent Claude via Cursor pour développer Grok Build. Accès coupé.

  2. Mar 2026
    Musk admet 'xAI was not built right'

    Musk recrute Andrew Milich et Jason Ginsberg (ex-Cursor, 2 Md$ ARR) pour refondre xAI.

  3. 30 avr 2026
    Témoignage sous serment

    Musk classe Anthropic premier, xAI dernier. Admet "Partly" la distillation OpenAI.

  4. 14 mai 2026
    Lancement Grok Build

    Beta SuperGrok Heavy, 99-299 $/mois. Annoncé comme "Claude Code competitor".

Le procès et le lancement se télescopent sur quatorze jours. Difficile de croire au calendrier innocent.

Verdict : à qui ça parle vraiment

Trois personas, trois recommandations honnêtes.

Le solo / indie hacker. Tu codes seul ou en duo, ton ticket Claude Code Pro à 20 $/mois fait le job depuis six mois, tu n'as pas de besoin d'air-gap. Reste sur Claude Code. Le surcoût est indéfendable et tu perds en perf sur les tâches difficiles, là où Claude Sonnet 4.6 et Opus 4.7 brillent encore.

L'équipe SaaS / scale-up (3-30 devs). Tu utilises Claude Code Max ou Codex CLI, tu as un workflow stabilisé. Plan Mode est intéressant, mais pas suffisant pour basculer toute l'équipe sur 299 $/mois/poste. À tester sur un seul siège pendant les six mois d'intro, surtout si vous avez un monorepo qui fait souffrir le contexte 200K de Claude.

La boîte avec monorepo géant et contraintes air-gap (banque, défense, R&D classifiée, gros legacy). Là, le pitch tient : contexte 2M, local-first, code qui ne sort pas. Si vous vivez avec un repo de plusieurs millions de lignes et un SOC qui vous interdit le cloud externe, Grok Build mérite un POC de trois mois. Pas un déploiement aveugle.

Questions fréquentes

  • Grok Build est-il vraiment open source ou self-hostable ?

    Non. C'est un client local qui appelle l'API xAI hébergée, accessible uniquement aux abonnés SuperGrok Heavy. Le "local-first" signifie que ton code reste sur ta machine et n'est pas envoyé aux serveurs xAI ; cela ne veut pas dire que le modèle tourne en local. Pour de l'IA réellement self-hostée, regarde plutôt les modèles open-weight (Mistral, Qwen, Llama).

  • Puis-je essayer Grok Build sans payer 99 $/mois ?

    Pas officiellement. Le CLI est verrouillé derrière SuperGrok Heavy. Certains tutoriels YouTube proposent des contournements via des APIs gratuites tierces, mais le client officiel exige une auth Heavy. Pour évaluer gratuitement le modèle sous-jacent (grok-code-fast-1), tu peux passer par l'API à 0,20 /1,50/1,50 le million de tokens, sans le wrapper agent.

  • Le score 70,8 % SWE-bench est-il fiable ?

    Tant qu'aucun tiers indépendant ne le réplique, non. La mesure de vals.ai à 57,6 % sur le même benchmark est un signal d'alerte de 13 points. xAI n'a pas commenté l'écart à ce jour. À considérer comme un chiffre marketing en attendant une réplication publique.

  • Plan Mode existe-t-il dans Claude Code ?

    Pas sous cette forme exacte. Claude Code propose un mode "planning" via /plan et des hooks pre-exécution, mais ne formalise pas un workflow "plan → review → approve" obligatoire avec validation explicite avant chaque édition. C'est la vraie différence fonctionnelle de Grok Build.

Pour aller plus loin

Si tu veux te faire ta propre idée du produit avant de juger, le test complet en vidéo de Grok Build face à Claude Code et Codex CLI est le meilleur point d'entrée. Il montre l'interface Plan Mode en action et compare les outputs sur des tâches identiques.

Test complet Grok Build vs Claude Code vs Codex CLI sur des tâches concrètes.

Les sources qui ont nourri ce décryptage, par ordre de poids :

Introducing Grok Build
L'annonce officielle xAI du 14 mai 2026 : description produit, modèles, tarification, capacités. La source primaire à laquelle tout article doit pouvoir être confronté.
x.ai
Elon Musk testifies that xAI trained Grok on OpenAI models
Compte-rendu TechCrunch du témoignage Musk du 30 avril 2026. Source de la citation 'Partly' et du ranking sous serment qui place Anthropic premier.
techcrunch.com
Claude Benchmarks 2026 - Sonnet 4.6, Opus 4.6, Haiku
Recensement à jour des scores SWE-bench Verified pour la gamme Claude. Indispensable pour comparer Grok Build en chiffres.
morphllm.com
Should Indie Hackers Switch From Claude Code?
Analyse côté indie hacker, ton honnête et concret. Le verdict 'stay where you are' qui synthétise le consensus communautaire au lancement.
dev.to
Grok Build - Hacker News thread
93 points, 34 commentaires. Le scepticisme dominant des devs sur le rapport qualité/prix et l'accessibilité du produit en beta.
news.ycombinator.com

Ce que ça dit du marché

La guerre des dev agents s'intensifie, et xAI entre par la porte de service. Quand le leader que tu reconnais sous serment vend son produit 20 /moisetquetusorsletienaˋ299/mois et que tu sors le tien à 299 /mois, tu ne joues pas sur le même terrain. Tu pries pour que les boîtes qui ont besoin de 2 M de contexte et de local-first soient assez nombreuses pour payer la marge.

Le pari peut tenir. Cursor a montré qu'un outil bien positionné sur un segment précis (IDE-first, équipes pro) peut atteindre 2 milliards de dollars d'ARR. Grok Build a un angle similaire (local-first + très gros contexte) qui n'est pas occupé. Reste à livrer une V1 stable, à faire répliquer les benchmarks par des tiers, et à expliquer la formation. On regardera dans six mois.

Choisir le bon agent de code pour ton équipe avec Blokby