Quel est le vrai prix de l'API Gemini 3.5 Flash ?

1.50 p a r m i l l i o n d e t o k e n s e n i n p u t e t 1.50 par million de tokens en input et 1.50 p a r mi l l i o n d e t o k e n se nin p u t e t 9.00 en output. Avec cache actif, Artificial Analysis mesure un cout blende de 1.31 p a r m i l l i o n d e t o k e n s ( r a t i o 7 : 2 : 1 c a c h e / i n p u t / o u t p u t ) . P o u r G P T − 5.5 I n s t a n t , l e t a r i f c o n f i r m e p a r L L M S t a t s e s t 1.31 par million de tokens (ratio 7:2:1 cache/input/output). Pour GPT-5.5 Instant, le tarif confirme par LLM Stats est 1.31 p a r mi l l i o n d e t o k e n s ( r a t i o 7 : 2 : 1 c a c h e / in p u t / o u tp u t ) . P o u r GP T − 5.5 I n s t an t , l e t a r i f co n f i r m e p a r LL M S t a t ses t 5.00/$30.00. L'ecart est de 3.3x en input et en output.

Est-ce que Gemini 3.5 Flash est vraiment 4x plus rapide que GPT-5.5 Instant ?

Selon les mesures Artificial Analysis disponibles au 20 mai 2026 : Gemini 3.5 Flash est mesure a environ 199-289 tokens/s selon le mode (thinking high vs standard). GPT-5.5 Instant est mesure a 61.5 t/s en mode low. Le rapport est de 3 a 4x selon les conditions de mesure. Les donnees OpenAI sur les modes high de GPT-5.5 ne sont pas publiees, ce qui rend la comparaison partielle.

Comment choisir entre Gemini 3.5 Flash et GPT-5.5 Instant pour mes agents ?

Priorite au multimodal (documents, images, PDFs), au cout et au volume (flux de production a grande echelle), ou aux benchmarks agentiques (MCP Atlas, coordination multi-outils) : prends Flash. Priorite au raisonnement pur (+10.3 points BenchLM), aux taches juridiques / medicales / financieres ou aux grandes sorties texte (output jusqu'a 128K tokens vs 65K pour Flash) : prends GPT-5.5 Instant. Pour les use cases mixtes, les deux peuvent coexister dans le meme pipeline (GPT-5.5 orchestrateur + Flash sous-agents).

Cursor, Perplexity, Linear ont-ils bascule sur Gemini 3.5 Flash ou GPT-5.5 Instant ?

Au moment de l'ecriture (21 mai 2026), aucune source publique ne confirme une migration de ces plateformes vers l'un ou l'autre. C'est une lacune notable des informations disponibles. Les deux modeles etant en disponibilite generale depuis moins de trois semaines, les annonces de partenariats tier sont probables dans les prochains mois mais pas encore publicisees.

Gemini 3.5 Flash supporte-t-il le computer use (controle d'interface graphique) ?

Non. Contrairement a certains concurrents, Gemini 3.5 Flash ne dispose pas du computer use natif au lancement. C'est une limitation a verifier si ton workflow agentique implique la navigation dans des interfaces graphiques ou la manipulation d'applications bureautiques. La feuille de route Google sur ce point n'est pas publique.

Gemini 3.5 Flash : le modele rapide qui chamboule la course 2026

Tu pensais que "rapide" et "malin" ne pouvaient pas coexister dans un seul modele. Google I/O 2026, 19 mai : Koray Kavukcuoglu monte sur scene, et Gemini 3.5 Flash arrive. Quatorze jours apres GPT-5.5 Instant d'OpenAI, la reponse de Mountain View affiche 289 tokens par seconde, une fenetre de contexte d'un million de tokens, et un prix trois fois inferieur a son concurrent direct. Le segment "rapide et pas cher" vient de changer de coordonnees.

Version courte

Reel Blokby - version courte du decryptage.

À retenir

Le 19 mai 2026, Google lance Gemini 3.5 Flash en disponibilite generale - 14 jours apres GPT-5.5 Instant (5 mai). Les deux ciblent le meme segment : agentique rapide, production a grande echelle.
Gemini 3.5 Flash est environ 3 a 4 fois plus rapide en tokens/s que GPT-5.5 Instant (289 t/s mesures vs 61.5 t/s selon Artificial Analysis) et 3.3 fois moins cher en input ( $1.50 vs$ 5.00 par million de tokens).
Sur les benchmarks, GPT-5.5 Instant garde l'avantage global : 91 vs 87 sur BenchLM, et +10.3 points en raisonnement pur. Gemini 3.5 Flash domine en comprehension multimodale (+13.4 points) et sur les benchmarks agentiques.
L'architecture recommandee par Google est le tandem Flash + Pro : Flash pour les sous-agents de traitement, Pro pour l'orchestration. C'est precisement le segment ou la rapidite de Flash est determinante.
Les deux labs augmentent leurs prix : Gemini 3.5 Flash coute 3x son predecesseur direct (Gemini 3 Flash Preview a $0.50/$ 3). Simon Willison l'a note : "all three of the major AI labs are starting to probe the price tolerance of their API customers."

Ce que Google a livre le 19 mai

Banniere Google I/O 2026 avec icones Cloud et Gemini multicolores — Source : Google Cloud Blog, 19 mai 2026.

Quand Koray Kavukcuoglu, directeur technique de DeepMind, annonce Gemini 3.5 Flash, il ne vend pas un modele de remplacement. Il vend un repositionnement. Le message central, repris dans le blog Google officiel :

“
Gemini 3.5 Flash delivers intelligence that rivals large flagship models on multiple dimensions at speeds you have come to expect from the Flash series. It's our strongest agentic and coding model yet, outperforming Gemini 3.1 Pro on key benchmarks...often at less than half the cost of comparable models.
”

Koray Kavukcuoglu· Chief Technologist, DeepMindGoogle Cloud Blog, 19 mai 2026

Ce n'est plus le compromis habituel "Flash = moins bon mais moins cher". C'est la promesse que le compromis n'existe plus. La formule officielle du blog Google DeepMind l'exprime directement : "You no longer have to trade quality for latency."

Pour les builders qui evaluent, les specs techniques :

$1.50 / $9

input / output par 1M tokens (API Gemini)

1 048 576

tokens de contexte (1M fenetre)

65 536

tokens max en sortie

Janv. 2026

knowledge cutoff

En face, GPT-5.5 Instant avait pose ses bases le 5 mai : $5.00 /$ 30.00 par million de tokens, une fenetre de contexte quasi identique (1 050 000 tokens), mais un output maximal de 128 000 tokens (soit presque 2x celui de Flash) et un cutoff d'aout 2025 (plus recent en date, mais anterieur a janvier 2026 de Flash).

Les chiffres qui chamboulent la course

Bar chart Artificial Analysis Output Speed : Gemini 3.5 Flash a 289 tokens/s, bien au-dessus de Gemini 3.1 Pro (135), GPT-5.5 (71) et Claude Opus 4.7 (67) — Source : Artificial Analysis / TechCrunch, mai 2026.

Le graphique Artificial Analysis dit l'essentiel. Gemini 3.5 Flash tourne a 289 tokens par seconde en sortie. Gemini 3.1 Pro est a 135. GPT-5.5 en mode high est a 71. Claude Opus 4.7 est a 67. L'ecart n'est pas un detail de spec sheet : c'est un facteur 4 qui change la nature des workflows agentiques possibles.

En termes de prix sur un appel API reel, Artificial Analysis calcule un cout blende de ** $1.31 par million de tokens** pour Gemini 3.5 Flash avec cache actif (ratio 7:2:1). Pour GPT-5.5 Instant, le tarif officiel LLM Stats est$ 5.00 / $30.00, soit un rapport de 3.3x en input.

Critere	Gemini 3.5 Flash	GPT-5.5 Instant
Prix input (1M tokens)	$1.50	$5.00
Prix output (1M tokens)	$9.00	$30.00
Vitesse sortie	~289 t/s	~61.5 t/s
Contexte entree	1 048 576	1 050 000
Max output	65 536	128 000
Knowledge cutoff	Janv. 2026	Aout 2025
Lancement GA	19 mai 2026	5 mai 2026

Sur les benchmarks agentiques ou Google a publie ses propres evaluations (MCP Atlas, Toolathlon), Gemini 3.5 Flash marque 83.6% sur la coordination multi-outils. GPT-5.5 n'a pas rendu public ses scores sur ces referentiels - ce qui rend la comparaison directe difficile et, precisement, favorise le narratif Google.

La comprehension multimodale (raisonnement sur images, graphiques, PDFs) est l'autre terrain clair : BenchLM mesure 83.8 vs 70.4 en faveur de Flash, soit +13.4 points. Pour les workflows qui traitent des documents structures ou des captures d'ecran, c'est un avantage concret.

Mais Gemini 3.5 Flash n'est pas le numero 1 absolu

Bar chart Artificial Analysis Intelligence Index v4 : GPT-5.5 numero 1 a 60 points, Claude Opus 4.7 et Gemini 3.1 Pro a 57 points, Gemini 3.5 Flash en retrait dans le classement — Source : The Decoder / Artificial Analysis Intelligence Index v4.0, mai 2026.

L'index d'intelligence Artificial Analysis (v4.0) replace les curseurs. GPT-5.5 est numero 1 a 60 points. Claude Opus 4.7 et Gemini 3.1 Pro sont a 57. Gemini 3.5 Flash est en retrait dans ce classement composite - ce n'est pas un echec, c'est le positionnement delibere d'un modele Flash dans un ecosysteme ou la rapidite et le cout priment sur le score composite.

BenchLM.ai le formule directement : GPT-5.5 Instant est a 91, Gemini 3.5 Flash a 87 sur le score global. L'ecart est de 4 points - "large enough that you do not need to squint at the spreadsheet to see the difference" selon leurs termes. Sur le raisonnement pur, l'avantage GPT-5.5 monte a +10.3 points (85 vs 74.7) et sur ARC-AGI-2, il domine nettement : 84.6% contre 72.1%.

Le chiffre le plus pique vient d'un benchmark de connaissance encyclopedique : Humanity's Last Exam plafonne Flash a 40.2%, en dessous de Gemini 3.1 Pro (44.4%). Accelerer sur les agents a un cout : le modele connait moins. C'est un trade-off assume, pas une surprise.

Pick GPT-5.5 if you want the stronger benchmark profile. Gemini 3.5 Flash only becomes the better choice if multimodal and grounded is the priority or you want the cheaper token bill.

~BenchLM.ai, mai 2026

GPT-5.5 Instant a aussi sa zone de fragilite. The Decoder a mesure un taux d'hallucination de 86% sur AA-Omniscience quand le modele ne connait pas la reponse (contre 36% pour Claude Opus 4.7). OpenAI revendique -52.5% d'hallucinations vs GPT-5.3 Instant, mais le paradoxe est reel : le modele le plus precis sur les questions connues est aussi le moins calibre sur les inconnues. Pour les use cases droit, medecine, finance, ce gap de calibration compte.

Le segment "rapide" devient strategique

Tulsee Doshi, director senior chez Google, a decrit l'architecture cible lors d'I/O 2026 :

“
3.5 Pro becomes your orchestrator, your planner, and then it actually can leverage Flash to be the various sub-agents.
”

Tulsee Doshi· Senior Director, GoogleTechCrunch, 19 mai 2026

C'est le pivot que peu de commentaires ont souligne. Le debat "Flash vs GPT-5.5 Instant" comme modele unique manque l'essentiel. Dans un pipeline agentique moderne, tu n'appelles pas un seul modele : tu as un orchestrateur (le plus capable, par exemple Gemini 3.5 Pro ou GPT-5.5) qui dispatche des sous-taches a des modeles rapides. Flash n'est pas concurrent de GPT-5.5 : il est complementaire de Gemini 3.5 Pro, et concurrent des modeles fast tier d'autres labs.

Dans ce segment, la vitesse et le cout ne sont pas des criteres secondaires. Quand un agent appelle 50 fois un modele pour valider un pipeline, le facteur 4 en vitesse et 3.3 en cout fait la difference entre un produit viable et un produit trop cher pour deployer. C'est pourquoi Shopify, Macquarie, Salesforce, Ramp, Xero et AirAsia sont cites comme adoptants pilotes, avant toute annonce grand public.

La comparaison avec Claude Haiku 4.5 est pertinente ici : les deux modeles se battent sur le meme terrain fast/cheap, mais aucun comparatif tier-a-tier complet n'est public au moment de l'ecriture. Les benchmarks partiels disponibles avantageront l'un ou l'autre selon la tache.

L'angle mort : les prix montent partout

Simon Willison, developpeur independant dont le blog fait reference sur les evaluations de modeles, a note quelque chose que les communiques de presse ne mentionnent pas :

“
all three of the major AI labs are starting to probe the price tolerance of their API customers
”

Simon Willison· Developpeur independant, blog de reference LLMsimonwillison.net, 19 mai 2026

Les chiffres donnent raison a ce diagnostic. Gemini 3.5 Flash, a $1.50/$ 9, coute 3 fois son predecesseur direct Gemini 3 Flash Preview ( $0.50/$ 3) et 6 fois Gemini 3.1 Flash-Lite. GPT-5.5 Instant est 20% plus cher que GPT-5.4 malgre une reduction de 40% de la consommation de tokens (l'efficience monte, le tarif aussi). La comparaison avec les modeles open-weight replace le debat dans son contexte de marche.

Kimi K2.6 (open-weight)

0.14 $

Gemini 3 Flash Preview (ex)

0.50 $

Gemini 3.5 Flash

1.50 $

GPT-5.5 Instant

5.00 $

Cout input par 1M tokens - segment 'fast tier' mai 2026.

Kimi K2.6 de Moonshot AI, sorti le 6 mai 2026, illustre la pression par le bas : open-weight, 1.6T MoE avec 31B parametres actifs, 58.6% sur SWE-bench Pro, et $0.14 par million de tokens en input. Ce n'est pas le meme niveau de benchmark que Flash ou GPT-5.5, mais pour des taches simples et du volume brut, l'ecart de cout de 10x devient un argument de selection.

Si ton use case est tres sensible au volume (des millions d'appels par jour), le tableau ci-dessus doit faire partie de ton analyse ROI. Les labs poussent les prix vers le haut pendant que des alternatives open-weight recuperent la pression par le bas. C'est la dynamique structurelle de la periode, et elle ne va pas s'inverser en quelques mois.

Pour les builders deja sur GPT-4o ou Gemini 3 Flash, la migration n'est pas neutre : tu obtiens un modele plus capable, plus rapide, mais tu paies aussi plus cher par appel. L'arbitrage net depend de ta reduction de tokens consommes (moins d'appels correctifs si le modele resout mieux du premier coup) versus l'augmentation du tarif unitaire.

L'autre limite a connaitre pour Gemini 3.5 Flash : pas de "computer use" natif (controle d'interface graphique), contrairement a certains concurrents. Si ton workflow agent passe par de la navigation UI ou de la manipulation d'applications, verifie les specs de computer use avant de choisir Flash comme modele de base.

Si tu suis l'evolution des modeles chinois et de la guerre des labs plus largement, notre lecture de Qwen 3.7 et le retour de la Chine dans la course donne un bon cadrage sur pourquoi l'open-weight bouscule la logique de pricing des labs occidentaux.

Questions frequentes

Quel est le vrai prix de l'API Gemini 3.5 Flash ?
$1.50 par million de tokens en input et$ 9.00 en output. Avec cache actif, Artificial Analysis mesure un cout blende de $1.31 par million de tokens (ratio 7:2:1 cache/input/output). Pour GPT-5.5 Instant, le tarif confirme par LLM Stats est$ 5.00/$30.00. L'ecart est de 3.3x en input et en output.
Est-ce que Gemini 3.5 Flash est vraiment 4x plus rapide que GPT-5.5 Instant ?
Selon les mesures Artificial Analysis disponibles au 20 mai 2026 : Gemini 3.5 Flash est mesure a environ 199-289 tokens/s selon le mode (thinking high vs standard). GPT-5.5 Instant est mesure a 61.5 t/s en mode low. Le rapport est de 3 a 4x selon les conditions de mesure. Les donnees OpenAI sur les modes high de GPT-5.5 ne sont pas publiees, ce qui rend la comparaison partielle.
Comment choisir entre Gemini 3.5 Flash et GPT-5.5 Instant pour mes agents ?
Priorite au multimodal (documents, images, PDFs), au cout et au volume (flux de production a grande echelle), ou aux benchmarks agentiques (MCP Atlas, coordination multi-outils) : prends Flash. Priorite au raisonnement pur (+10.3 points BenchLM), aux taches juridiques / medicales / financieres ou aux grandes sorties texte (output jusqu'a 128K tokens vs 65K pour Flash) : prends GPT-5.5 Instant. Pour les use cases mixtes, les deux peuvent coexister dans le meme pipeline (GPT-5.5 orchestrateur + Flash sous-agents).
Cursor, Perplexity, Linear ont-ils bascule sur Gemini 3.5 Flash ou GPT-5.5 Instant ?
Au moment de l'ecriture (21 mai 2026), aucune source publique ne confirme une migration de ces plateformes vers l'un ou l'autre. C'est une lacune notable des informations disponibles. Les deux modeles etant en disponibilite generale depuis moins de trois semaines, les annonces de partenariats tier sont probables dans les prochains mois mais pas encore publicisees.
Gemini 3.5 Flash supporte-t-il le computer use (controle d'interface graphique) ?
Non. Contrairement a certains concurrents, Gemini 3.5 Flash ne dispose pas du computer use natif au lancement. C'est une limitation a verifier si ton workflow agentique implique la navigation dans des interfaces graphiques ou la manipulation d'applications bureautiques. La feuille de route Google sur ce point n'est pas publique.

Pour aller plus loin

La video officielle Google "Gemini 3.5 Flash: Built for AI Agents" publiee au moment d'I/O 2026 donne la meilleure vue du positionnement produit en 5 minutes : demos agentiques, architecture Flash + Pro, et les benchmarks que Google a choisi de mettre en avant.

Video officielle Google 'Gemini 3.5 Flash: Built for AI Agents' - annonce I/O 2026, demos agentiques et positionnement produit.

Les sources qui ont nourri ce decryptage :

Gemini 3.5: frontier intelligence with action

L'annonce officielle Google DeepMind du 19 mai 2026. Source primaire pour les specs, les citations de Kavukcuoglu, et la promesse 'You no longer have to trade quality for latency.'

blog.google ↗

With Gemini 3.5 Flash, Google bets its next AI wave on agents, not chatbots

Le meilleur compte-rendu media du lancement. Cite Tulsee Doshi sur l'architecture Pro+Flash et le CTO d'AirAsia sur les 50% de code produit en agentique. Inclut les charts de benchmarks.

techcrunch.com ↗

Gemini 3.5 Flash: API Provider Performance Benchmarking

La source de reference pour les mesures de vitesse (tokens/s), TTFT, et cout blende en conditions reelles. Reference pour les 289 t/s et le cout $1.31 blende avec cache.

artificialanalysis.ai ↗

Gemini 3.5 Flash: more expensive, but Google plan to use it for everything

L'angle critique indispensable : 3x plus cher que le predecesseur, aucun computer use, et l'observation sur la 'price tolerance probe' des trois grands labs. Honnete et reference.

simonwillison.net ↗

Gemini 3.5 Flash vs GPT-5.5: AI Benchmark Comparison 2026

Le comparatif le plus complet disponible entre les deux modeles, categorie par categorie. Source des scores 87 vs 91 (global) et du +13.4 en multimodal pour Flash.

benchlm.ai ↗

Le meme ecosysteme de modeles rapides vaut la peine d'etre suivi dans son ensemble. L'article sur Gemini Omni Flash et les modeles flash generation precedente donne le recul historique sur comment Google a construit le positionnement Flash depuis 2025. Et si tu t'interroges sur l'usage de l'IA dans des contextes politiques ou reglementaires, le cas Mistral-Mensch illustre comment le deploiement rapide des modeles se heurte aux contraintes institutionnelles.

La course des modeles ultra-rapides n'est pas gagnee. Gemini 3.5 Flash a redessine les parametres du segment en mai 2026, mais le marche bouge vite : Gemini 3.5 Pro est annonce pour juin, des modeles open-weight comme Kimi K2.6 poussent par le bas, et les chiffres de benchmarks publies sans replication tierce restent a prendre avec methode. La bonne strategie reste celle qu'APIDog articule bien : maintiens ton harness d'evaluation, compare sur tes propres donnees de production, et ne te verrouille jamais sur un seul fournisseur.

Choisir le bon modele rapide pour ton pipeline IA avec Blokby