Blog

Gemini 3.5 Flash: 2026년 경쟁 구도를 뒤흔드는 빠른 모델

Gemini

Gemini 3.5 Flash(5월 19일) vs GPT-5.5 Instant(5월 5일): 속도, 가격, 벤치마크. 2026년 5월 에이전트와 워크플로우에 무엇을 선택할지 분석해요.

"빠르다"와 "똑똑하다"는 하나의 모델에 공존할 수 없다고 생각했나요? Google I/O 2026, 5월 19일: Koray Kavukcuoglu가 무대에 오르고 Gemini 3.5 Flash가 등장해요. GPT-5.5 Instant 출시 14일 후, Mountain View의 응답이 초당 289 토큰, 100만 토큰 컨텍스트 창, 그리고 직접 경쟁자 대비 3배 저렴한 가격을 내세웠어요. "빠르고 저렴한" 세그먼트의 좌표가 바뀌었어요.

짧은 버전

Blokby 릴 - 분석 요약 버전.

5월 19일 Google이 출시한 것

멀티컬러 Cloud와 Gemini 아이콘이 있는 Google I/O 2026 배너
출처: Google Cloud Blog, 2026년 5월 19일.

DeepMind의 Chief Technologist Koray Kavukcuoglu가 Gemini 3.5 Flash를 발표했을 때, 그는 대체 모델을 파는 것이 아니었어요. 재포지셔닝을 파는 것이었어요. Google 공식 블로그에 담긴 핵심 메시지:

Gemini 3.5 Flash delivers intelligence that rivals large flagship models on multiple dimensions at speeds you have come to expect from the Flash series. It's our strongest agentic and coding model yet, outperforming Gemini 3.1 Pro on key benchmarks...often at less than half the cost of comparable models.

Koray Kavukcuoglu· Chief Technologist, DeepMindGoogle Cloud Blog, 2026년 5월 19일

더 이상 "Flash = 품질이 낮지만 저렴한" 타협이 아니에요. 타협이 더 이상 존재하지 않는다는 약속이에요. Google DeepMind 블로그의 공식 표현은 이를 직접적으로 말해요: "You no longer have to trade quality for latency."

평가하는 빌더를 위한 기술 스펙:

$1.50 / $9
1M 토큰당 입력/출력 (Gemini API)
1,048,576
컨텍스트 토큰 (1M 창)
65,536
최대 출력 토큰
2026년 1월
knowledge cutoff

반대편에서 GPT-5.5 Instant는 5월 5일에 기준을 정했어요: 백만 토큰당 5.00/5.00/30.00, 거의 동일한 컨텍스트 창(105만 토큰), 최대 출력 128,000 토큰(Flash의 거의 2배), 그리고 2025년 8월 cutoff(날짜상 더 최근이지만, Flash의 2026년 1월보다 이전).

경쟁 구도를 뒤흔드는 수치들

Artificial Analysis 출력 속도 바 차트: Gemini 3.5 Flash가 289 tokens/s로, Gemini 3.1 Pro (135), GPT-5.5 (71), Claude Opus 4.7 (67)를 크게 앞서요
출처: Artificial Analysis / TechCrunch, 2026년 5월.

Artificial Analysis 차트가 핵심을 말해줘요. Gemini 3.5 Flash는 출력에서 초당 289 토큰으로 작동해요. Gemini 3.1 Pro는 135. GPT-5.5 high 모드는 71. Claude Opus 4.7은 67. 이 격차는 단순한 스펙 차이가 아니에요: 가능한 에이전틱 워크플로우의 성격을 바꾸는 4배 차이예요.

실제 API 호출 비용 기준으로, Artificial Analysis는 캐시 활성 상태(7:2:1 비율)에서 Gemini 3.5 Flash의 블렌디드 비용을 **백만 토큰당 1.31로계산해요.GPT5.5InstantLLMStats공식요금은1.31**로 계산해요. GPT-5.5 Instant의 LLM Stats 공식 요금은 5.00/$30.00, 입력 기준 3.3배 차이예요.

기준Gemini 3.5 FlashGPT-5.5 Instant
입력 가격 (1M 토큰)$1.50$5.00
출력 가격 (1M 토큰)$9.00$30.00
출력 속도~289 t/s~61.5 t/s
입력 컨텍스트1,048,5761,050,000
최대 출력65,536128,000
Knowledge cutoff2026년 1월2025년 8월
GA 출시2026년 5월 19일2026년 5월 5일

Google이 자체 평가를 공개한 에이전틱 벤치마크(MCP Atlas, Toolathlon)에서 Gemini 3.5 Flash는 멀티툴 조율에서 83.6%를 기록했어요. GPT-5.5는 이 지표에서 공개 점수를 제출하지 않았어요. 이는 직접 비교를 어렵게 만들고, 정확히 Google 서사에 유리하게 작용해요.

멀티모달 이해(이미지, 그래프, PDF 추론)는 다른 명확한 영역이에요: BenchLM이 Flash 우위로 83.8 vs 70.4, +13.4 포인트를 측정했어요. 구조화된 문서나 스크린샷을 처리하는 워크플로우에서는 구체적인 이점이 있어요.

하지만 Gemini 3.5 Flash가 절대 1위는 아니에요

Artificial Analysis Intelligence Index v4 바 차트: GPT-5.5가 60점으로 1위, Claude Opus 4.7과 Gemini 3.1 Pro가 57점, Gemini 3.5 Flash는 순위에서 뒤처져 있어요
출처: The Decoder / Artificial Analysis Intelligence Index v4.0, 2026년 5월.

Artificial Analysis 지능 지수(v4.0)가 맥락을 복원해요. GPT-5.5가 60점으로 1위에요. Claude Opus 4.7과 Gemini 3.1 Pro가 57점. Gemini 3.5 Flash는 이 종합 순위에서 뒤처져 있어요. 이것은 실패가 아니에요. 종합 점수보다 속도와 비용이 우선인 생태계에서 Flash 모델의 의도적인 포지셔닝이에요.

BenchLM.ai는 직접적으로 표현해요: GPT-5.5 Instant는 91점, Gemini 3.5 Flash는 전체 점수 87점. 4점 차이. "large enough that you do not need to squint at the spreadsheet to see the difference"라고 표현했어요. 순수 추론에서 GPT-5.5의 이점은 +10.3 포인트(85 vs 74.7)까지 올라가고 ARC-AGI-2에서는 명확하게 우세해요: 84.6% vs 72.1%.

가장 날카로운 수치는 백과사전적 지식 벤치마크에서 나와요: Humanity's Last Exam에서 Flash는 40.2%에 그쳐, Gemini 3.1 Pro(44.4%)보다 낮아요. 에이전트 작업을 위해 빠르게 만드는 데는 비용이 있어요: 모델이 덜 알게 돼요. 이것은 의도된 트레이드오프예요.

Pick GPT-5.5 if you want the stronger benchmark profile. Gemini 3.5 Flash only becomes the better choice if multimodal and grounded is the priority or you want the cheaper token bill.

~BenchLM.ai, 2026년 5월

GPT-5.5 Instant에도 취약한 부분이 있어요. The Decoder는 모델이 답을 모를 때 AA-Omniscience에서 86%의 환각률을 측정했어요(Claude Opus 4.7은 36%). OpenAI는 GPT-5.3 Instant 대비 -52.5%의 환각 감소를 주장하지만, 역설은 실재해요: 알려진 질문에서 가장 정확한 모델이 모르는 것에서는 가장 잘못 보정돼 있어요. 법률, 의학, 금융 사용 사례에서 이 보정 격차가 중요해요.

"빠른" 세그먼트가 전략적이 되다

Google의 시니어 디렉터 Tulsee Doshi가 I/O 2026에서 목표 아키텍처를 설명했어요:

3.5 Pro becomes your orchestrator, your planner, and then it actually can leverage Flash to be the various sub-agents.

Tulsee Doshi· Senior Director, GoogleTechCrunch, 2026년 5월 19일

소수의 코멘트만이 강조한 전환점이에요. "Flash vs GPT-5.5 Instant" 단일 모델 논쟁은 핵심을 놓쳐요. 현대 에이전틱 파이프라인에서는 단일 모델을 호출하지 않아요: 서브태스크를 빠른 모델에게 디스패치하는 오케스트레이터(가장 유능한 것, 예를 들어 Gemini 3.5 Pro 또는 GPT-5.5)가 있어요. Flash는 GPT-5.5의 경쟁자가 아니에요. Gemini 3.5 Pro의 보완재이고, 다른 연구소의 fast tier 모델들의 경쟁자예요.

이 세그먼트에서 속도와 비용은 부차적 기준이 아니에요. 에이전트가 파이프라인을 검증하기 위해 모델을 50번 호출할 때, 속도 4배와 비용 3.3배 차이가 배포 가능한 제품과 너무 비싼 제품을 가르는 차이예요. 그래서 Shopify, Macquarie, Salesforce, Ramp, Xero, AirAsia가 일반 대중 발표 이전에 조기 채택자로 언급되는 거예요.

Claude Haiku 4.5와의 비교도 여기서 적절해요: 두 모델 모두 fast/cheap 동일한 영역에서 경쟁하지만, 작성 시점에 공개된 완전한 tier-to-tier 비교는 없어요. 부분 벤치마크는 작업에 따라 어느 쪽에 유리하게 작용할 수 있어요.

맹점: 모든 곳에서 가격이 오르고 있어요

모델 평가 블로그로 레퍼런스가 된 독립 개발자 Simon Willison이 보도자료에서 언급되지 않은 무언가를 발견했어요:

all three of the major AI labs are starting to probe the price tolerance of their API customers

Simon Willison· 독립 개발자, LLM 레퍼런스 블로그simonwillison.net, 2026년 5월 19일

수치가 이 진단을 뒷받침해요. 1.50/1.50/9인 Gemini 3.5 Flash는 직전 모델 Gemini 3 Flash Preview(0.50/0.50/3)의 3배 가격이고, Gemini 3.1 Flash-Lite의 6배예요. GPT-5.5 Instant는 토큰 소비가 40% 줄었음에도 GPT-5.4보다 20% 더 비싸요 (효율성은 올라가고 가격도 올라가요). 오픈웨이트 모델과의 비교가 시장 맥락을 제공해요.

Kimi K2.6 (open-weight)
0.14 $
Gemini 3 Flash Preview (구버전)
0.50 $
Gemini 3.5 Flash
1.50 $
GPT-5.5 Instant
5.00 $
1M 토큰당 입력 비용 - 2026년 5월 'fast tier' 세그먼트.

Moonshot AI의 Kimi K2.6은 2026년 5월 6일에 출시됐어요. 오픈웨이트, 활성 파라미터 310억의 1.6T MoE, SWE-bench Pro 58.6%, 입력 백만 토큰당 $0.14예요. 이것이 Flash나 GPT-5.5와 같은 벤치마크 레벨은 아니지만, 단순 작업과 대량 처리에서 10배 비용 차이는 선택 기준이 돼요.

사용 사례가 볼륨에 매우 민감하다면(하루 수백만 호출), 위 표는 ROI 분석의 일부가 되어야 해요. 연구소들이 위쪽으로 가격을 밀고 있는 동안 오픈웨이트 대안들이 아래서 압력을 가해요. 이것이 현재 시기의 구조적 역학이고, 몇 달 안에 역전되지 않을 거예요.

GPT-4o나 Gemini 3 Flash에서 마이그레이션하는 빌더에게는 이 전환이 중립적이지 않아요: 더 유능하고 빠른 모델을 얻지만, 호출당 더 많이 내요. 순 절충은 소비 토큰 감소(모델이 첫 번째 시도에서 더 잘 해결하면 수정 호출이 줄어듦)와 단가 상승의 비교에 달려 있어요.

Gemini 3.5 Flash의 또 다른 알아둘 한계: 네이티브 "computer use"(그래픽 인터페이스 제어) 기능이 없어요. 에이전트 워크플로우가 UI 탐색이나 애플리케이션 조작을 포함한다면 Flash를 기본 모델로 선택하기 전에 스펙을 확인하세요.

중국 모델과 연구소 간 더 넓은 경쟁 구도를 팔로우하고 있다면, Qwen 3.7과 중국의 경쟁 복귀가 오픈웨이트가 서양 연구소들의 가격 로직을 어떻게 흔드는지 좋은 프레임을 제공해요.

자주 묻는 질문

  • Gemini 3.5 Flash API의 실제 가격은 얼마인가요?

    입력 1M 토큰당 1.50,출력1M토큰당1.50, 출력 1M 토큰당 9.00이에요. 캐시 활성화 시 Artificial Analysis가 측정한 블렌디드 비용은 1M 토큰당 1.31(캐시/입력/출력7:2:1비율)이에요.GPT5.5InstantLLMStats확인요금은1.31(캐시/입력/출력 7:2:1 비율)이에요. GPT-5.5 Instant의 LLM Stats 확인 요금은 5.00/$30.00이에요. 입력과 출력 기준 모두 3.3배 차이예요.

  • Gemini 3.5 Flash가 GPT-5.5 Instant보다 실제로 4배 빠른가요?

    2026년 5월 20일 기준 Artificial Analysis 측정값에 따르면: Gemini 3.5 Flash는 모드에 따라(thinking high vs 표준) 약 199289 tokens/s로 측정돼요. GPT-5.5 Instant는 low 모드에서 61.5 t/s로 측정돼요. 측정 조건에 따라 34배 차이예요. GPT-5.5 high 모드의 OpenAI 데이터는 공개되지 않아 비교가 불완전해요.

  • 에이전트용으로 Gemini 3.5 Flash와 GPT-5.5 Instant 중 어떻게 선택하나요?

    멀티모달 (문서, 이미지, PDF), 비용과 볼륨 (대규모 프로덕션 플로우), 또는 에이전틱 벤치마크 (MCP Atlas, 멀티툴 조율) 우선이라면: Flash를 선택하세요. 순수 추론 (BenchLM +10.3 포인트), 법률/의학/금융 작업, 또는 긴 텍스트 출력 (128K vs Flash의 65K 토큰) 우선이라면: GPT-5.5 Instant를 선택하세요. 혼합 사용 사례라면 같은 파이프라인에 두 모델을 함께 사용할 수도 있어요 (GPT-5.5 오케스트레이터 + Flash 서브에이전트).

  • Cursor, Perplexity, Linear가 Gemini 3.5 Flash 또는 GPT-5.5 Instant로 전환했나요?

    작성 시점(2026년 5월 21일) 기준 공개 출처 중 이 플랫폼들의 어느 쪽으로의 마이그레이션을 확인하는 것은 없어요. 두 모델 모두 정식 출시된 지 3주가 안 됐어요. 파트너십 발표는 앞으로 몇 달 안에 이루어질 가능성이 있지만 아직 공개되지 않았어요.

  • Gemini 3.5 Flash가 computer use(그래픽 인터페이스 제어)를 지원하나요?

    아니요. 일부 경쟁사와 달리 Gemini 3.5 Flash는 출시 시점에 네이티브 computer use를 지원하지 않아요. 에이전틱 워크플로우가 그래픽 인터페이스 탐색이나 데스크톱 애플리케이션 조작을 포함한다면 이것이 확인해야 할 제한 사항이에요. Google의 이 부분 로드맵은 공개되지 않았어요.

더 알아보기

I/O 2026 당시 공개된 Google의 공식 영상 "Gemini 3.5 Flash: Built for AI Agents"는 5분 안에 제품 포지셔닝의 최고 뷰를 제공해요: 에이전틱 데모, Flash + Pro 아키텍처, 그리고 Google이 앞세우기로 선택한 벤치마크들.

Google 공식 영상 'Gemini 3.5 Flash: Built for AI Agents' - I/O 2026 발표, 에이전틱 데모 및 제품 포지셔닝.

이 분석의 출처:

Gemini 3.5: frontier intelligence with action
2026년 5월 19일 Google DeepMind 공식 발표. 스펙, Kavukcuoglu 인용문, 'You no longer have to trade quality for latency' 약속의 1차 출처.
blog.google
With Gemini 3.5 Flash, Google bets its next AI wave on agents, not chatbots
출시에 대한 최고의 미디어 커버리지. Pro+Flash 아키텍처에 대한 Tulsee Doshi 인용과 에이전틱으로 50% 코드 생산에 대한 AirAsia CTO 인용 포함. 벤치마크 차트 있음.
techcrunch.com
Gemini 3.5 Flash: API Provider Performance Benchmarking
실제 조건에서의 속도(tokens/s), TTFT, 블렌디드 비용 측정의 레퍼런스 출처. 289 t/s와 캐시 포함 블렌디드 비용 $1.31의 기준.
artificialanalysis.ai
Gemini 3.5 Flash: more expensive, but Google plan to use it for everything
필수적인 비판적 관점: 전 버전 대비 3배 가격 상승, computer use 없음, 그리고 3대 연구소들의 '가격 내성 탐색' 관찰. 정직하고 레퍼런스 수준.
simonwillison.net
Gemini 3.5 Flash vs GPT-5.5: AI Benchmark Comparison 2026
두 모델 간 카테고리별 가장 완전한 비교. 전체 점수 87 vs 91과 Flash의 멀티모달 +13.4 포인트의 출처.
benchlm.ai

빠른 모델 생태계 전체를 팔로우할 가치가 있어요. Gemini Omni Flash와 이전 세대 flash 모델들에 관한 글이 Google이 2025년부터 Flash 포지셔닝을 어떻게 구축했는지 역사적 관점을 제공해요. 정치적 또는 규제 맥락에서 AI 활용에 관심이 있다면, Mistral-Mensch 사례가 모델의 빠른 배포가 제도적 제약과 어떻게 충돌하는지 보여줘요.

초고속 모델 경쟁은 아직 끝나지 않았어요. Gemini 3.5 Flash가 2026년 5월에 세그먼트의 매개변수를 다시 그렸지만, 시장은 빠르게 움직여요: Gemini 3.5 Pro가 6월에 출시 예정이고, Kimi K2.6 같은 오픈웨이트 모델들이 아래에서 밀어붙이고 있으며, 타사 복제 없이 공개된 벤치마크 수치는 방법론적으로 조심해야 해요. APIDog가 잘 표현한 것처럼 좋은 전략은 변하지 않아요: 평가 하네스를 유지하고, 직접 프로덕션 데이터로 비교하고, 단일 공급업체에 절대 종속되지 마세요.

Blokby와 AI 파이프라인에 맞는 빠른 모델 선택하기