Blog

Grok Build : Claude Code의 15배 가격, 10점 낮은 성능

Grok

5월 14일, xAI가 Grok Build를 출시했습니다. 더 비싸고, 벤치마크에서 뒤지며, Musk의 증언이 제품을 새로운 시각으로 바라보게 합니다. 분석합니다.

2026년 4월 30일, 캘리포니아 연방법원. 선서 하에 Elon Musk는 세계 AI 리더들의 순위를 발표합니다: 먼저 Anthropic, 그 다음 OpenAI, Google, 중국 오픈소스 모델들. 그의 xAI는? 꼴찌입니다. 14일 후, 바로 그 xAI가 Grok Build를 출시합니다. Anthropic보다 5배에서 15배 비싼 가격에 포지셔닝된 커맨드라인 코드 에이전트입니다. 벤치마크에서는 10점 뒤처지면서요. 이것이 바로 그 극명한 격차입니다.

5월 14일 xAI가 실제로 출시한 것

Grok Build는 Claude Code와 Codex CLI의 계보를 잇는 커맨드라인 코드 에이전트입니다. 한 줄의 명령으로 설치하고, 터미널에서 대화하며, 파일을 편집하고, 셸 명령을 실행하고, 하위 작업을 조율합니다. 인터페이스는 TUI를 위한 Rust 프레임워크 ratatui를 사용하여 정교한 시각적 렌더링을 제공합니다 (xAI 엔지니어가 출시 당일 Hacker News 스레드에서 이 선택을 확인했습니다).

2026년 5월 14일
공식 출시일
99 - 299달러/월
SuperGrok Heavy 입장 비용
200만 토큰
Heavy 컨텍스트 (Claude 200K 대비)
에이전트 8개
최대 병렬 실행

내부적으로 두 모델이 공존합니다. grok-code-fast-1은 대부분의 호출을 담당하는 빠른 엔진으로, 256,000토큰 컨텍스트 창과 입력/출력 기준 백만 토큰당 0.20달러/1.50달러의 API 요금을 자랑합니다. SuperGrok Heavy를 통해 접근 가능한 Grok 4.3 Heavy는 컨텍스트를 200만 토큰으로 늘리고 멀티 에이전트 아키텍처(공식적으로 최대 8개 병렬, 두 모델에 분산)를 지휘합니다.

Claude Code 생태계에서 상속된 4가지 규약이 네이티브로 지원됩니다: 프로젝트 문서를 위한 AGENTS.md, Skills, MCP 서버, 훅. 좋은 관행이지만 동시에 시인이기도 합니다. xAI는 규약을 재발명하지 않고 채택하는 것입니다.

가격의 벽: Claude Code보다 5배에서 15배 비싸

바로 이 지점에서 대부분의 잠재 사용자를 잃습니다. Grok Build는 개별 판매되지 않습니다. xAI의 최고 등급인 SuperGrok Heavy 뒤에 잠겨 있습니다. 6개월간의 입문가 99달러/월은 이후 299달러/월로 오릅니다. 부분 환불이나 유지 보장 메커니즘은 공개적으로 발표된 바 없습니다.

도구월 요금포함 모델SWE-bench Verified
Claude Code Pro20달러Sonnet 4.679.6%
Claude Code Max100 - 200달러Sonnet + Opus80.9%
Codex CLI20달러GPT-5.x77.3%
Grok Build (입문가)99달러Grok 4.3 Heavy70.8% (xAI 자체 측정)
Grok Build (정규가)299달러Grok 4.3 Heavy70.8% (xAI 자체 측정)

인디 커뮤니티에서의 평가는 즉각적입니다. DEV Community의 요약:

For most indie hackers running small-to-medium SaaS products on Claude Code today, the honest answer is: stay where you are.

DevToolPicks· DEV Communitydev.to, 2026년 5월 15일

그리고 Hacker News의 한 개발자, 한 줄로:

More expensive, as good or worse at the job, and it runs in the terminal.

~Hacker News 댓글, 2026년 5월 14일

비교하자면, Claude Code는 Anthropic에서 연환산 수익 25억 달러를 돌파했습니다 (2026년 4월 기준). 회사 역사상 가장 빠르게 성장하는 제품입니다. Grok Build는 이미 안착한 시장에 진입합니다. 그것도 가장 활발한 사용자 층인 개인 개발자, 오픈소스 기여자, YouTube에서 데모를 돌리는 빌더들을 배제하는 가격으로.

벤치마크의 벽: 10점 뒤처짐, 아마도 그 이상

코드 에이전트의 기준 벤치마크인 SWE-bench Verified에서 xAI는 grok-code-fast-1이 **70.8%**를 기록했다고 발표합니다. 공식 발표 페이지에 등장하는 수치이자 전문 언론이 인용한 숫자입니다.

Claude Code (Opus 4.5)
80.9 %
Claude Code (Sonnet 4.6)
79.6 %
Codex CLI (GPT-5.x)
77.3 %
Grok Build (xAI 자체 측정)
70.8 %
Grok Build (vals.ai 독립 측정)
57.6 %
SWE-bench Verified. 높을수록 좋습니다.

문제는: 이 70.8%가 출시 시점에 제3자 재현 없이 xAI가 자체 하네스로 내부 측정한 값이라는 점입니다. 기초 모델 벤치마크를 감사하는 플랫폼 vals.ai는 동일한 테스트에서 57.6%를 측정했습니다. 공식 수치보다 13점 낮습니다. xAI는 현재까지 이 격차에 대해 언급하지 않았습니다.

xAI 자체도 블로그에 면책 조항을 달았습니다: "SWE-bench benchmarks don't fully reflect the nuances of real-world software engineering." 솔직한 발언이지만, 점수가 낮다는 것을 알 때 사용하는 고전적인 전술이기도 합니다.

진정으로 새로운 것들

모든 것이 가격과 벤치마크로만 요약되지는 않습니다. Grok Build는 Claude Code와 Codex CLI에는 없는 세 가지를 제공합니다. 이는 인정해야 합니다.

Plan Mode. 파일을 수정하기 전에 에이전트가 완전한 실행 계획을 생성하여 보여줍니다. 한 줄도 건드리기 전에 검토하고, 수정하고, 거부할 수 있습니다. xAI는 워크플로우를 이렇게 설명합니다:

Present the full execution plan first before any code changes occur, allowing developers to review, comment, and modify steps upfront with clear diffs displayed afterward.

xAI, 공식 문서· Grok Build 문서techloy.com, 2026년 5월 15일

Claude Code와 실질적인 차이점입니다. Claude Code는 먼저 실행하고 나중에 diff를 보여줍니다. Plan Mode는 순서를 뒤집습니다. 민감한 작업(마이그레이션, 파일 간 리팩토링)에서는 귀중한 안전망이 됩니다.

Plan Mode에서 실행 중인 Grok Build CLI 스크린샷
출처: kingy.ai. Grok Build 터미널이 편집 전 전체 계획을 보여줍니다.

로컬 우선 및 에어갭. 코드는 머신에 남아있고, 세션 중 xAI 서버로 코드베이스가 전송되지 않습니다. 설치 후에는 격리된 환경에서 작동합니다. 엄격한 기밀 요건이 있는 기업(금융, 국방, 민감한 R&D)에는 실질적인 장점입니다.

200만 토큰 컨텍스트 (Heavy). Claude Code는 200,000에서 상한이 있고 Opus 4.7은 100만까지 올라갑니다. 수십만 줄 규모의 모노레포에서 10배의 차이는 구체적인 의미가 있습니다. 청킹 감소, RAG 감소, 더 많은 직접 컨텍스트.

여기에 8개 병렬 에이전트 (발표된 아키텍처), MCP 서버AGENTS.md 규약 네이티브 지원, 그리고 여러 에이전트가 동일한 문제를 경쟁적으로 해결하고 결과물이 점수화된 후 제시되는 Arena Mode가 추가됩니다. Arena Mode는 공개 로드맵 없이 발표된 상태로 남아있습니다.

제품을 다르게 읽게 만드는 자인

2026년 4월 30일, Musk 대 Altman 소송 (캘리포니아 연방법원) 자신의 재판에서 Musk는 선서 하에 증언했습니다. 변호인의 직접 질문: xAI가 Grok을 훈련시키기 위해 OpenAI 모델에 증류 기술을 사용했나요?

Partly.

~Elon Musk, 선서 하에, 2026년 4월 30일

증류는 경쟁 모델(이 경우 GPT-4o, GPT-5 등)에 대규모로 질의하고 그 응답을 자체 모델 훈련에 활용하는 것입니다. 일부 맥락에서는 기술적으로 합법이지만, OpenAI ToS에서는 금지되어 있으며, 같은 기업을 비영리 사명 배신으로 고소하면서 이를 행하는 것은 윤리적으로 문제가 있습니다. Musk는 이렇게 정당화했습니다:

It is standard practice to use other AIs to validate your AI.

"validate"는 선택된 단어입니다. 질문은 훈련에 관한 것이었지, 검증이 아니었습니다. 하지만 그 단어는 남아있습니다.

순위의 아이러니

같은 주, 여전히 선서 하에, Musk는 자신의 세계 AI 리더 순위를 공개했습니다. 마케팅 없이, X 펀치라인 없이. 그의 답변은 명확합니다: Anthropic 1위, 그 다음 OpenAI, Google, 중국 오픈소스 모델들, xAI 꼴찌. 그는 xAI가 "불과 수백 명의 직원"을 가진 "훨씬 더 작은" 회사라고 덧붙였습니다.

2주 후, 바로 그 xAI가 월 299달러짜리 프리미엄 Grok Build를 출시하며 자신이 직접 세계 리더의 제품이라고 말한 Claude Code와 맞붙입니다. 이 문장을 두 번 읽어보세요.

맥락은 더욱 선명합니다. 2026년 1월, Anthropic은 xAI 엔지니어들이 Grok Build를 개발하기 위해 Cursor를 통해 Claude를 사용하고 있다는 사실을 발견한 후 접근을 차단했습니다. 이것이 부분적으로 xAI가 자체 에이전트 개발을 가속화하게 만든 사건입니다. Musk의 포지션은 이렇습니다: Anthropic이 리더이고, 나는 내 것을 만들기 위해 그들의 도구를 사용하고 있었는데, 그들이 접근을 끊었고, 나는 10점 낮은 성능으로 15배 비싼 경쟁자를 출시한다.

  1. 2026년 1월
    Anthropic이 xAI 엔지니어 접근 차단

    Anthropic이 xAI 엔지니어들이 Grok Build 개발을 위해 Cursor를 통해 Claude를 사용하고 있음을 발견합니다. 접근 차단.

  2. 2026년 3월
    Musk, 'xAI was not built right' 인정

    Musk가 xAI를 재건하기 위해 Andrew Milich와 Jason Ginsberg (전 Cursor, ARR 20억 달러)를 영입합니다.

  3. 2026년 4월 30일
    선서 하 증언

    Musk가 Anthropic을 1위, xAI를 꼴찌로 꼽습니다. OpenAI 증류를 "Partly"라고 인정합니다.

  4. 2026년 5월 14일
    Grok Build 출시

    SuperGrok Heavy 베타, 월 99-299달러. "Claude Code 경쟁자"로 발표.

재판과 출시가 14일 안에 겹칩니다. 우연한 타이밍이라고 보기 어렵습니다.

평가: 누구에게 진짜 맞는가

세 가지 페르소나, 세 가지 솔직한 추천.

솔로/인디 해커. 혼자 또는 둘이서 코딩하고, 6개월째 월 20달러 Claude Code Pro로 충분히 해결되고 있으며, 에어갭 필요가 없다면. Claude Code에 머무르세요. 추가 비용은 정당화되지 않으며, 어려운 작업에서 Claude Sonnet 4.6과 Opus 4.7이 여전히 빛나는 곳에서 성능이 떨어집니다.

SaaS 팀/스케일업 (3-30명 개발자). Claude Code Max나 Codex CLI를 사용하고, 안정적인 워크플로우를 갖추고 있다면. Plan Mode는 흥미롭지만 전체 팀을 인당 월 299달러로 전환하기에 충분하지 않습니다. 특히 Claude의 200K 컨텍스트로 고통받는 모노레포가 있다면, 6개월 입문가 기간 동안 단일 좌석으로 테스트해 볼 만합니다.

대규모 모노레포와 에어갭 요건이 있는 기업 (금융, 국방, 비밀 R&D, 대형 레거시). 여기서 피치가 성립합니다: 200만 토큰 컨텍스트, 로컬 우선, 코드가 유출되지 않습니다. 수백만 줄 규모의 레포와 외부 클라우드를 금지하는 보안팀이 있다면, Grok Build는 3개월 POC의 가치가 있습니다. 맹목적인 배포가 아니라.

자주 묻는 질문

  • Grok Build는 진정으로 오픈소스이거나 셀프 호스팅이 가능한가요?

    아닙니다. SuperGrok Heavy 구독자만 접근 가능한 호스팅된 xAI API를 호출하는 로컬 클라이언트입니다. "로컬 우선"은 코드가 머신에 남아있고 xAI 서버로 전송되지 않는다는 의미입니다. 모델이 로컬에서 실행된다는 뜻이 아닙니다. 진정한 셀프 호스팅 AI를 원한다면 오픈 웨이트 모델 (Mistral, Qwen, Llama)을 살펴보세요.

  • 월 99달러 없이 Grok Build를 시험해 볼 수 있나요?

    공식적으로는 없습니다. CLI는 SuperGrok Heavy 뒤에 잠겨 있습니다. 일부 YouTube 튜토리얼이 무료 타사 API를 통한 우회 방법을 제시하지만, 공식 클라이언트는 Heavy 인증이 필요합니다. 추가 비용 없이 기반 모델(grok-code-fast-1)을 평가하려면 백만 토큰당 0.20달러/1.50달러의 API를 통해 에이전트 래퍼 없이 접근할 수 있습니다.

  • SWE-bench 70.8% 점수는 신뢰할 수 있나요?

    독립적인 제3자가 재현하기 전까지는 아닙니다. 동일 벤치마크에서 vals.ai의 57.6% 측정값은 13점의 경고 신호입니다. xAI는 현재까지 이 격차에 대해 언급하지 않았습니다. 공개 재현이 있기 전까지는 마케팅 수치로 간주하세요.

  • Plan Mode가 Claude Code에도 있나요?

    이 정확한 형태로는 없습니다. Claude Code는 /plan을 통한 "planning" 모드와 사전 실행 훅을 제공하지만, 각 편집 전 명시적 검증이 있는 필수적인 "plan → review → approve" 워크플로우를 공식화하지는 않습니다. 이것이 Grok Build의 진정한 기능적 차이점입니다.

더 알아보기

판단하기 전에 제품에 대한 자신만의 의견을 형성하려면, Grok Build vs Claude Code vs Codex CLI의 전체 비디오 테스트가 최선의 출발점입니다. Plan Mode 인터페이스가 실제로 작동하는 모습과 동일한 작업에서의 출력 비교를 보여줍니다.

실제 작업에서의 Grok Build vs Claude Code vs Codex CLI 전체 테스트.

이 분석에 활용된 출처들, 중요도 순서:

Introducing Grok Build
2026년 5월 14일 xAI 공식 발표: 제품 설명, 모델, 가격, 기능. 모든 기사가 참조해야 할 1차 출처.
x.ai
Elon Musk testifies that xAI trained Grok on OpenAI models
2026년 4월 30일 Musk 증언에 대한 TechCrunch 보도. 'Partly' 인용과 Anthropic을 1위로 두는 선서 하 순위의 출처.
techcrunch.com
Claude Benchmarks 2026 - Sonnet 4.6, Opus 4.6, Haiku
Claude 라인업의 최신 SWE-bench Verified 점수 집계. 수치로 Grok Build를 비교하는 데 필수적입니다.
morphllm.com
Should Indie Hackers Switch From Claude Code?
인디 해커 관점의 분석, 솔직하고 실용적인 톤. 출시 시점의 커뮤니티 컨센서스를 요약하는 'stay where you are' 평가.
dev.to
Grok Build - Hacker News thread
93포인트, 34개 댓글. 베타 단계 제품의 가격 대비 성능과 접근성에 대한 개발자들의 지배적인 회의론.
news.ycombinator.com

시장이 말하는 것

개발자 에이전트 전쟁이 격화되고 있으며, xAI는 서비스 입구를 통해 진입합니다. 선서 하에 인정한 리더가 자신의 제품을 월 20달러에 팔고 당신은 299달러에 당신 것을 출시한다면, 같은 경기장에서 뛰는 것이 아닙니다. 200만 토큰 컨텍스트와 로컬 우선이 필요한 기업들이 마진을 지불할 만큼 충분히 많기를 바라는 것입니다.

이 베팅은 성립할 수 있습니다. Cursor는 IDE 우선, 프로 팀이라는 특정 세그먼트에 잘 포지셔닝된 도구가 ARR 20억 달러에 도달할 수 있다는 것을 보여주었습니다. Grok Build는 점유되지 않은 유사한 각도(로컬 우선 + 매우 큰 컨텍스트)를 가지고 있습니다. 안정적인 V1을 제공하고, 제3자가 벤치마크를 재현하게 하고, 훈련 방식을 설명하는 것이 남아있습니다. 6개월 후에 다시 살펴보겠습니다.

Blokby와 함께 팀에 맞는 코드 에이전트 선택하기