Blog

Grok Build: 15 veces Claude Code, 10 puntos por debajo

Grok

El 14 de mayo, xAI lanza Grok Build. Más caro, con peores resultados en los benchmarks, y un testimonio de Musk que cambia la lectura del producto. Análisis.

Treinta de abril de 2026, tribunal federal de California. Bajo juramento, Elon Musk clasifica a los líderes mundiales de la IA: Anthropic primero, luego OpenAI, Google, los modelos open-source chinos. ¿Su propio xAI? El último. Catorce días después, ese mismo xAI lanza Grok Build, un agente de código en línea de comandos posicionado frente a Claude Code, a un precio que supera al de Anthropic por un factor de cinco a quince. Con diez puntos menos en el benchmark. Eso es el abismo.

Lo que xAI entregó realmente el 14 de mayo

Grok Build es un agente de código en línea de comandos, en la línea de Claude Code y Codex CLI. Lo instalas con un comando, le hablas en tu terminal, edita tus archivos, lanza comandos shell y orquesta subtareas. La interfaz utiliza ratatui, un framework Rust para TUI, lo que le da una presentación visual cuidada (un ingeniero de xAI confirmó la elección en el hilo de Hacker News del lanzamiento).

14 mayo 2026
lanzamiento oficial
99 - 299 $/mes
precio de entrada SuperGrok Heavy
2 M tokens
contexto Heavy (vs 200K Claude)
8 agentes
en paralelo máximo

Bajo el capó, coexisten dos modelos. grok-code-fast-1 es el motor rápido para la mayoría de las llamadas, con una ventana de 256.000 tokens y un precio de API de 0,20 /1,50/ 1,50 por millón de tokens en input/output. Grok 4.3 Heavy, accesible vía SuperGrok Heavy, sube el contexto a 2 millones de tokens y orquesta una arquitectura multi-agente (oficialmente hasta 8 en paralelo, repartidos en dos modelos).

Cuatro convenciones heredadas del ecosistema Claude Code están soportadas de forma nativa: AGENTS.md para la documentación del proyecto, los Skills, los servidores MCP y los hooks. Buena práctica, pero también una confesión: xAI no reinventa la convención, la adopta.

El muro del precio: 5 a 15 veces Claude Code

Aquí es donde el producto pierde a la mayoría de los candidatos. Grok Build no se vende a la unidad: está bloqueado detrás de SuperGrok Heavy, el nivel más alto de xAI. El precio de introducción de 99 /mesduranteseismesespasaa299/mes durante seis meses pasa a 299 /mes después. No se ha comunicado ningún mecanismo público de reembolso parcial ni garantía de retención.

HerramientaTarifa mensualModelo incluidoSWE-bench Verified
Claude Code Pro20 $Sonnet 4.679,6 %
Claude Code Max100 - 200 $Sonnet + Opus80,9 %
Codex CLI20 $GPT-5.x77,3 %
Grok Build (intro)99 $Grok 4.3 Heavy70,8 % (interno xAI)
Grok Build (estándar)299 $Grok 4.3 Heavy70,8 % (interno xAI)

El veredicto es inmediato en la comunidad indie. DEV Community lo resume:

For most indie hackers running small-to-medium SaaS products on Claude Code today, the honest answer is: stay where you are.

DevToolPicks· DEV Communitydev.to, 15 mayo 2026

Y un desarrollador en Hacker News, en una sola línea:

More expensive, as good or worse at the job, and it runs in the terminal.

~Comentario Hacker News, 14 mayo 2026

Para comparar, Claude Code supera por sí solo los 2.500 millones de dólares de ingresos anualizados en abril de 2026 en Anthropic. Es el producto que crece más rápido en toda la historia de la compañía. Grok Build entra en un mercado ya establecido, a un precio que excluye a su franja más activa: los solos, los desarrolladores de open source, los builders que hacen girar las demos en YouTube.

El muro del benchmark: diez puntos por debajo, quizás más

En SWE-bench Verified, el benchmark de referencia para los agentes de código, xAI anuncia 70,8 % para grok-code-fast-1. Es la cifra que aparece en la página de anuncio oficial y que ha sido recogida por toda la prensa especializada.

Claude Code (Opus 4.5)
80.9 %
Claude Code (Sonnet 4.6)
79.6 %
Codex CLI (GPT-5.x)
77.3 %
Grok Build (xAI interno)
70.8 %
Grok Build (vals.ai tercero)
57.6 %
SWE-bench Verified. Cuanto más alto, mejor.

El problema: ese 70,8 % está medido internamente por xAI, en su propio harness, sin replicación de terceros publicada en el momento del lanzamiento. La plataforma vals.ai, que audita los benchmarks de modelos de base, mide 57,6 % en el mismo test, es decir trece puntos por debajo de la cifra oficial. xAI no ha comentado la diferencia hasta la fecha.

El propio xAI se anticipó añadiendo un disclaimer en su blog: "SWE-bench benchmarks don't fully reflect the nuances of real-world software engineering." Frase honesta, pero también táctica clásica: advertir que la puntuación es imperfecta cuando sabes que es baja.

Lo que es honestamente nuevo

No todo se reduce al precio y al benchmark. Grok Build aporta tres cosas que Claude Code y Codex CLI no tienen, y que hay que reconocer.

Plan Mode. Antes de cualquier modificación de archivo, el agente produce un plan completo de ejecución y te lo presenta. Puedes comentarlo, modificarlo, rechazarlo, antes de que se toque una sola línea. xAI describe el flujo así:

Present the full execution plan first before any code changes occur, allowing developers to review, comment, and modify steps upfront with clear diffs displayed afterward.

xAI, documentación oficial· Documentación Grok Buildtechloy.com, 15 mayo 2026

Es una diferencia real con Claude Code, que actúa y luego muestra los diffs. Plan Mode invierte el orden. En tareas sensibles (migración, refactor entre archivos), es una red de seguridad valiosa.

Captura de pantalla de Grok Build CLI en Plan Mode
Fuente: kingy.ai. El terminal de Grok Build presenta el plan completo antes de cualquier edición.

Local-first y air-gap. El código permanece en tu máquina; nada del codebase se transmite a los servidores de xAI durante una sesión. Una vez instalado, la herramienta funciona en entorno aislado. Para empresas con restricciones estrictas de confidencialidad (banca, defensa, I+D sensible), es un argumento real.

Contexto de 2 millones de tokens (Heavy). Claude Code tiene un límite de 200.000, Opus 4.7 llega al millón. En un monorepo de varios cientos de miles de líneas, el factor 10 marca una diferencia concreta: menos chunking, menos RAG, más contexto directo.

A esto se suman los 8 agentes en paralelo (arquitectura anunciada), el soporte nativo de servidores MCP y la convención AGENTS.md, y un Arena Mode donde varios agentes resuelven el mismo problema en competición y sus resultados se puntúan antes de presentarse. Arena Mode sigue anunciado sin hoja de ruta de entrega pública.

La confesión que cambia la lectura del producto

El 30 de abril de 2026, en su propio juicio contra OpenAI (Musk v. Altman, tribunal federal de California), Musk testificó bajo juramento. Pregunta directa de un abogado de la defensa: ¿había usado xAI técnicas de destilación en los modelos de OpenAI para entrenar Grok?

Partly.

~Elon Musk, bajo juramento, 30 abril 2026

La destilación consiste en interrogar masivamente a un modelo competidor (en este caso GPT-4o, GPT-5, etc.) y usar sus respuestas para entrenar el propio modelo. Es técnicamente legal en ciertos marcos, está prohibido por los ToS de OpenAI, y es éticamente cuestionable cuando se demanda a la misma empresa por traición a su misión sin ánimo de lucro. Musk lo justificó:

It is standard practice to use other AIs to validate your AI.

"Validate" es una elección de palabra. La pregunta era sobre el entrenamiento, no la validación. Pero la palabra está puesta, y ahí queda.

La ironía del ranking

La misma semana, también bajo juramento, Musk ofreció su propio ranking de los líderes mundiales de la IA. Sin jerarquía de marketing, sin golpe de efecto en X. Su respuesta, en claro: Anthropic primero, luego OpenAI, luego Google, luego los modelos open-source chinos, y xAI el último. Precisó que xAI era "mucho más pequeña" con "solo unos pocos cientos de empleados".

Dos semanas después, ese mismo xAI lanza Grok Build, premium a 299 $/mes, y lo posiciona contra Claude Code, que él mismo dice ser el producto del líder mundial. Lee esta frase dos veces.

Y el contexto es aún más claro. En enero de 2026, Anthropic bloqueó el acceso a Claude para los ingenieros de xAI al descubrir que lo usaban vía Cursor para desarrollar Grok Build. Es el evento que, en parte, empujó a xAI a acelerar su agente propio. La posición de Musk es la siguiente: Anthropic es el líder, usaba su herramienta para construir la mía, me cortaron el acceso, saco un competidor 15 veces más caro con 10 puntos menos.

  1. Ene 2026
    Anthropic bloquea a los ingenieros de xAI

    Anthropic descubre que ingenieros de xAI usan Claude vía Cursor para desarrollar Grok Build. Acceso cortado.

  2. Mar 2026
    Musk admite 'xAI was not built right'

    Musk ficha a Andrew Milich y Jason Ginsberg (ex-Cursor, 2 Md$ ARR) para refundar xAI.

  3. 30 abr 2026
    Testimonio bajo juramento

    Musk clasifica a Anthropic primero, xAI último. Admite "Partly" la destilación de OpenAI.

  4. 14 may 2026
    Lanzamiento Grok Build

    Beta SuperGrok Heavy, 99-299 $/mes. Anunciado como "Claude Code competitor".

El juicio y el lanzamiento se solapan en catorce días. Es difícil creer en un calendario inocente.

Veredicto: a quién le habla realmente

Tres perfiles, tres recomendaciones honestas.

El solo / indie hacker. Programas solo o en dúo, tu suscripción de Claude Code Pro a 20 $/mes hace el trabajo desde hace seis meses, no tienes necesidad de air-gap. Quédate en Claude Code. El sobrecoste es indefendible y pierdes rendimiento en las tareas difíciles, donde Claude Sonnet 4.6 y Opus 4.7 siguen brillando.

El equipo SaaS / scale-up (3-30 devs). Usas Claude Code Max o Codex CLI, tienes un flujo de trabajo estabilizado. Plan Mode es interesante, pero no suficiente para migrar todo el equipo a 299 $/mes/puesto. Pruébalo en un solo puesto durante los seis meses de intro, especialmente si tienes un monorepo que sufre con el contexto de 200K de Claude.

La empresa con monorepo gigante y restricciones air-gap (banca, defensa, I+D clasificada, legacy grande). Ahí el argumento se sostiene: contexto de 2M, local-first, código que no sale. Si vives con un repositorio de varios millones de líneas y un SOC que te prohíbe el cloud externo, Grok Build merece un POC de tres meses. No un despliegue a ciegas.

Preguntas frecuentes

  • ¿Grok Build es realmente open source o se puede autoalojar?

    No. Es un cliente local que llama a la API de xAI alojada, accesible únicamente a los suscriptores de SuperGrok Heavy. El "local-first" significa que tu código permanece en tu máquina y no se envía a los servidores de xAI; no significa que el modelo corra en local. Para IA realmente autoalojada, mira los modelos open-weight (Mistral, Qwen, Llama).

  • ¿Puedo probar Grok Build sin pagar 99 $/mes?

    No oficialmente. El CLI está bloqueado detrás de SuperGrok Heavy. Algunos tutoriales de YouTube proponen soluciones alternativas vía APIs gratuitas de terceros, pero el cliente oficial requiere una auth Heavy. Para evaluar gratuitamente el modelo subyacente (grok-code-fast-1), puedes acceder a la API a 0,20 /1,50/1,50 el millón de tokens, sin el wrapper del agente.

  • ¿Es fiable el score del 70,8 % en SWE-bench?

    Mientras ningún tercero independiente lo replique, no. La medición de vals.ai al 57,6 % en el mismo benchmark es una señal de alerta de 13 puntos. xAI no ha comentado la diferencia hasta la fecha. Debe considerarse como una cifra de marketing a la espera de una replicación pública.

  • ¿Existe Plan Mode en Claude Code?

    No en esta forma exacta. Claude Code ofrece un modo "planning" vía /plan y hooks pre-ejecución, pero no formaliza un flujo "plan → revisar → aprobar" obligatorio con validación explícita antes de cada edición. Esa es la diferencia funcional real de Grok Build.

Para ir más lejos

Si quieres formarte tu propia opinión del producto antes de juzgar, el test completo en vídeo de Grok Build frente a Claude Code y Codex CLI es el mejor punto de entrada. Muestra la interfaz de Plan Mode en acción y compara los resultados en tareas idénticas.

Test completo Grok Build vs Claude Code vs Codex CLI en tareas concretas.

Las fuentes que han alimentado este análisis, por orden de peso:

Introducing Grok Build
El anuncio oficial de xAI del 14 de mayo de 2026: descripción del producto, modelos, precios, capacidades. La fuente primaria con la que debe confrontarse cualquier artículo.
x.ai
Elon Musk testifies that xAI trained Grok on OpenAI models
Crónica de TechCrunch sobre el testimonio de Musk del 30 de abril de 2026. Fuente de la cita 'Partly' y del ranking bajo juramento que coloca a Anthropic primero.
techcrunch.com
Claude Benchmarks 2026 - Sonnet 4.6, Opus 4.6, Haiku
Recopilación actualizada de scores SWE-bench Verified para la gama Claude. Imprescindible para comparar Grok Build en cifras.
morphllm.com
Should Indie Hackers Switch From Claude Code?
Análisis desde el lado indie hacker, tono honesto y concreto. El veredicto 'stay where you are' que sintetiza el consenso de la comunidad en el lanzamiento.
dev.to
Grok Build - Hacker News thread
93 puntos, 34 comentarios. El escepticismo dominante de los desarrolladores sobre la relación calidad/precio y la accesibilidad del producto en beta.
news.ycombinator.com

Lo que esto dice del mercado

La guerra de los agentes para desarrolladores se intensifica, y xAI entra por la puerta de servicio. Cuando el líder que reconoces bajo juramento vende su producto a 20 /mesytuˊsacaseltuyoa299/mes y tú sacas el tuyo a 299 /mes, no estás jugando en el mismo terreno. Estás rezando para que las empresas que necesitan 2 M de contexto y local-first sean lo suficientemente numerosas como para pagar el margen.

La apuesta puede sostenerse. Cursor demostró que una herramienta bien posicionada en un segmento preciso (IDE-first, equipos profesionales) puede alcanzar 2.000 millones de dólares de ARR. Grok Build tiene un ángulo similar (local-first + contexto muy grande) que no está ocupado. Queda por entregar una V1 estable, hacer que los benchmarks sean replicados por terceros, y explicar la formación del modelo. Lo revisaremos en seis meses.

Elegir el agente de código adecuado para tu equipo con Blokby