Treinta de abril de 2026, tribunal federal de California. Bajo juramento, Elon Musk clasifica a los líderes mundiales de la IA: Anthropic primero, luego OpenAI, Google, los modelos open-source chinos. ¿Su propio xAI? El último. Catorce días después, ese mismo xAI lanza Grok Build, un agente de código en línea de comandos posicionado frente a Claude Code, a un precio que supera al de Anthropic por un factor de cinco a quince. Con diez puntos menos en el benchmark. Eso es el abismo.
Lo que xAI entregó realmente el 14 de mayo
Grok Build es un agente de código en línea de comandos, en la línea de Claude Code y Codex CLI. Lo instalas con un comando, le hablas en tu terminal, edita tus archivos, lanza comandos shell y orquesta subtareas. La interfaz utiliza ratatui, un framework Rust para TUI, lo que le da una presentación visual cuidada (un ingeniero de xAI confirmó la elección en el hilo de Hacker News del lanzamiento).
Bajo el capó, coexisten dos modelos. grok-code-fast-1 es el motor rápido para la mayoría de las llamadas, con una ventana de 256.000 tokens y un precio de API de 0,20 por millón de tokens en input/output. Grok 4.3 Heavy, accesible vía SuperGrok Heavy, sube el contexto a 2 millones de tokens y orquesta una arquitectura multi-agente (oficialmente hasta 8 en paralelo, repartidos en dos modelos).
Cuatro convenciones heredadas del ecosistema Claude Code están soportadas de forma nativa: AGENTS.md para la documentación del proyecto, los Skills, los servidores MCP y los hooks. Buena práctica, pero también una confesión: xAI no reinventa la convención, la adopta.
El muro del precio: 5 a 15 veces Claude Code
Aquí es donde el producto pierde a la mayoría de los candidatos. Grok Build no se vende a la unidad: está bloqueado detrás de SuperGrok Heavy, el nivel más alto de xAI. El precio de introducción de 99 /mes después. No se ha comunicado ningún mecanismo público de reembolso parcial ni garantía de retención.
| Herramienta | Tarifa mensual | Modelo incluido | SWE-bench Verified |
|---|---|---|---|
| Claude Code Pro | 20 $ | Sonnet 4.6 | 79,6 % |
| Claude Code Max | 100 - 200 $ | Sonnet + Opus | 80,9 % |
| Codex CLI | 20 $ | GPT-5.x | 77,3 % |
| Grok Build (intro) | 99 $ | Grok 4.3 Heavy | 70,8 % (interno xAI) |
| Grok Build (estándar) | 299 $ | Grok 4.3 Heavy | 70,8 % (interno xAI) |
El veredicto es inmediato en la comunidad indie. DEV Community lo resume:
“For most indie hackers running small-to-medium SaaS products on Claude Code today, the honest answer is: stay where you are.
”
Y un desarrollador en Hacker News, en una sola línea:
More expensive, as good or worse at the job, and it runs in the terminal.
Para comparar, Claude Code supera por sí solo los 2.500 millones de dólares de ingresos anualizados en abril de 2026 en Anthropic. Es el producto que crece más rápido en toda la historia de la compañía. Grok Build entra en un mercado ya establecido, a un precio que excluye a su franja más activa: los solos, los desarrolladores de open source, los builders que hacen girar las demos en YouTube.
El muro del benchmark: diez puntos por debajo, quizás más
En SWE-bench Verified, el benchmark de referencia para los agentes de código, xAI anuncia 70,8 % para grok-code-fast-1. Es la cifra que aparece en la página de anuncio oficial y que ha sido recogida por toda la prensa especializada.
El problema: ese 70,8 % está medido internamente por xAI, en su propio harness, sin replicación de terceros publicada en el momento del lanzamiento. La plataforma vals.ai, que audita los benchmarks de modelos de base, mide 57,6 % en el mismo test, es decir trece puntos por debajo de la cifra oficial. xAI no ha comentado la diferencia hasta la fecha.
El propio xAI se anticipó añadiendo un disclaimer en su blog: "SWE-bench benchmarks don't fully reflect the nuances of real-world software engineering." Frase honesta, pero también táctica clásica: advertir que la puntuación es imperfecta cuando sabes que es baja.
Lo que es honestamente nuevo
No todo se reduce al precio y al benchmark. Grok Build aporta tres cosas que Claude Code y Codex CLI no tienen, y que hay que reconocer.
Plan Mode. Antes de cualquier modificación de archivo, el agente produce un plan completo de ejecución y te lo presenta. Puedes comentarlo, modificarlo, rechazarlo, antes de que se toque una sola línea. xAI describe el flujo así:
“Present the full execution plan first before any code changes occur, allowing developers to review, comment, and modify steps upfront with clear diffs displayed afterward.
”
Es una diferencia real con Claude Code, que actúa y luego muestra los diffs. Plan Mode invierte el orden. En tareas sensibles (migración, refactor entre archivos), es una red de seguridad valiosa.

Local-first y air-gap. El código permanece en tu máquina; nada del codebase se transmite a los servidores de xAI durante una sesión. Una vez instalado, la herramienta funciona en entorno aislado. Para empresas con restricciones estrictas de confidencialidad (banca, defensa, I+D sensible), es un argumento real.
Contexto de 2 millones de tokens (Heavy). Claude Code tiene un límite de 200.000, Opus 4.7 llega al millón. En un monorepo de varios cientos de miles de líneas, el factor 10 marca una diferencia concreta: menos chunking, menos RAG, más contexto directo.
A esto se suman los 8 agentes en paralelo (arquitectura anunciada), el soporte nativo de servidores MCP y la convención AGENTS.md, y un Arena Mode donde varios agentes resuelven el mismo problema en competición y sus resultados se puntúan antes de presentarse. Arena Mode sigue anunciado sin hoja de ruta de entrega pública.
La confesión que cambia la lectura del producto
El 30 de abril de 2026, en su propio juicio contra OpenAI (Musk v. Altman, tribunal federal de California), Musk testificó bajo juramento. Pregunta directa de un abogado de la defensa: ¿había usado xAI técnicas de destilación en los modelos de OpenAI para entrenar Grok?
Partly.
La destilación consiste en interrogar masivamente a un modelo competidor (en este caso GPT-4o, GPT-5, etc.) y usar sus respuestas para entrenar el propio modelo. Es técnicamente legal en ciertos marcos, está prohibido por los ToS de OpenAI, y es éticamente cuestionable cuando se demanda a la misma empresa por traición a su misión sin ánimo de lucro. Musk lo justificó:
“It is standard practice to use other AIs to validate your AI.
”
"Validate" es una elección de palabra. La pregunta era sobre el entrenamiento, no la validación. Pero la palabra está puesta, y ahí queda.
La ironía del ranking
La misma semana, también bajo juramento, Musk ofreció su propio ranking de los líderes mundiales de la IA. Sin jerarquía de marketing, sin golpe de efecto en X. Su respuesta, en claro: Anthropic primero, luego OpenAI, luego Google, luego los modelos open-source chinos, y xAI el último. Precisó que xAI era "mucho más pequeña" con "solo unos pocos cientos de empleados".
Dos semanas después, ese mismo xAI lanza Grok Build, premium a 299 $/mes, y lo posiciona contra Claude Code, que él mismo dice ser el producto del líder mundial. Lee esta frase dos veces.
Y el contexto es aún más claro. En enero de 2026, Anthropic bloqueó el acceso a Claude para los ingenieros de xAI al descubrir que lo usaban vía Cursor para desarrollar Grok Build. Es el evento que, en parte, empujó a xAI a acelerar su agente propio. La posición de Musk es la siguiente: Anthropic es el líder, usaba su herramienta para construir la mía, me cortaron el acceso, saco un competidor 15 veces más caro con 10 puntos menos.
- Ene 2026Anthropic bloquea a los ingenieros de xAI
Anthropic descubre que ingenieros de xAI usan Claude vía Cursor para desarrollar Grok Build. Acceso cortado.
- Mar 2026Musk admite 'xAI was not built right'
Musk ficha a Andrew Milich y Jason Ginsberg (ex-Cursor, 2 Md$ ARR) para refundar xAI.
- 30 abr 2026Testimonio bajo juramento
Musk clasifica a Anthropic primero, xAI último. Admite "Partly" la destilación de OpenAI.
- 14 may 2026Lanzamiento Grok Build
Beta SuperGrok Heavy, 99-299 $/mes. Anunciado como "Claude Code competitor".
El juicio y el lanzamiento se solapan en catorce días. Es difícil creer en un calendario inocente.
Veredicto: a quién le habla realmente
Tres perfiles, tres recomendaciones honestas.
El solo / indie hacker. Programas solo o en dúo, tu suscripción de Claude Code Pro a 20 $/mes hace el trabajo desde hace seis meses, no tienes necesidad de air-gap. Quédate en Claude Code. El sobrecoste es indefendible y pierdes rendimiento en las tareas difíciles, donde Claude Sonnet 4.6 y Opus 4.7 siguen brillando.
El equipo SaaS / scale-up (3-30 devs). Usas Claude Code Max o Codex CLI, tienes un flujo de trabajo estabilizado. Plan Mode es interesante, pero no suficiente para migrar todo el equipo a 299 $/mes/puesto. Pruébalo en un solo puesto durante los seis meses de intro, especialmente si tienes un monorepo que sufre con el contexto de 200K de Claude.
La empresa con monorepo gigante y restricciones air-gap (banca, defensa, I+D clasificada, legacy grande). Ahí el argumento se sostiene: contexto de 2M, local-first, código que no sale. Si vives con un repositorio de varios millones de líneas y un SOC que te prohíbe el cloud externo, Grok Build merece un POC de tres meses. No un despliegue a ciegas.
Preguntas frecuentes
¿Grok Build es realmente open source o se puede autoalojar?
No. Es un cliente local que llama a la API de xAI alojada, accesible únicamente a los suscriptores de SuperGrok Heavy. El "local-first" significa que tu código permanece en tu máquina y no se envía a los servidores de xAI; no significa que el modelo corra en local. Para IA realmente autoalojada, mira los modelos open-weight (Mistral, Qwen, Llama).
¿Puedo probar Grok Build sin pagar 99 $/mes?
No oficialmente. El CLI está bloqueado detrás de SuperGrok Heavy. Algunos tutoriales de YouTube proponen soluciones alternativas vía APIs gratuitas de terceros, pero el cliente oficial requiere una auth Heavy. Para evaluar gratuitamente el modelo subyacente (grok-code-fast-1), puedes acceder a la API a 0,20 el millón de tokens, sin el wrapper del agente.
¿Es fiable el score del 70,8 % en SWE-bench?
Mientras ningún tercero independiente lo replique, no. La medición de vals.ai al 57,6 % en el mismo benchmark es una señal de alerta de 13 puntos. xAI no ha comentado la diferencia hasta la fecha. Debe considerarse como una cifra de marketing a la espera de una replicación pública.
¿Existe Plan Mode en Claude Code?
No en esta forma exacta. Claude Code ofrece un modo "planning" vía
/plany hooks pre-ejecución, pero no formaliza un flujo "plan → revisar → aprobar" obligatorio con validación explícita antes de cada edición. Esa es la diferencia funcional real de Grok Build.
Para ir más lejos
Si quieres formarte tu propia opinión del producto antes de juzgar, el test completo en vídeo de Grok Build frente a Claude Code y Codex CLI es el mejor punto de entrada. Muestra la interfaz de Plan Mode en acción y compara los resultados en tareas idénticas.
Las fuentes que han alimentado este análisis, por orden de peso:
Lo que esto dice del mercado
La guerra de los agentes para desarrolladores se intensifica, y xAI entra por la puerta de servicio. Cuando el líder que reconoces bajo juramento vende su producto a 20 /mes, no estás jugando en el mismo terreno. Estás rezando para que las empresas que necesitan 2 M de contexto y local-first sean lo suficientemente numerosas como para pagar el margen.
La apuesta puede sostenerse. Cursor demostró que una herramienta bien posicionada en un segmento preciso (IDE-first, equipos profesionales) puede alcanzar 2.000 millones de dólares de ARR. Grok Build tiene un ángulo similar (local-first + contexto muy grande) que no está ocupado. Queda por entregar una V1 estable, hacer que los benchmarks sean replicados por terceros, y explicar la formación del modelo. Lo revisaremos en seis meses.
Elegir el agente de código adecuado para tu equipo con Blokby