Blog

Gemini 3.5 Flash: el modelo rápido que sacude la carrera de 2026

Gemini

Gemini 3.5 Flash (19 mayo) vs GPT-5.5 Instant (5 mayo): velocidad, precio, benchmarks. ¿Cuál elegir para tus agentes y flujos de trabajo en mayo de 2026?

Pensabas que "rápido" e "inteligente" no podían coexistir en un solo modelo. Google I/O 2026, 19 de mayo: Koray Kavukcuoglu sube al escenario y llega Gemini 3.5 Flash. Catorce días después de GPT-5.5 Instant de OpenAI, la respuesta de Mountain View presenta 289 tokens por segundo, una ventana de contexto de un millón de tokens y un precio tres veces inferior al de su competidor directo. El segmento "rápido y barato" acaba de cambiar de coordenadas.

Versión corta

Reel Blokby - versión corta del análisis.

Lo que Google entregó el 19 de mayo

Banner de Google I/O 2026 con iconos Cloud y Gemini multicolor
Fuente: Google Cloud Blog, 19 de mayo de 2026.

Cuando Koray Kavukcuoglu, director técnico de DeepMind, anuncia Gemini 3.5 Flash, no vende un modelo de sustitución. Vende un reposicionamiento. El mensaje central, recogido en el blog oficial de Google:

Gemini 3.5 Flash delivers intelligence that rivals large flagship models on multiple dimensions at speeds you have come to expect from the Flash series. It's our strongest agentic and coding model yet, outperforming Gemini 3.1 Pro on key benchmarks...often at less than half the cost of comparable models.

Koray Kavukcuoglu· Chief Technologist, DeepMindGoogle Cloud Blog, 19 de mayo de 2026

Ya no es el compromiso habitual de "Flash = peor pero más barato". Es la promesa de que el compromiso ya no existe. La fórmula oficial del blog de Google DeepMind lo dice directamente: "You no longer have to trade quality for latency."

Para los builders que evalúan, las especificaciones técnicas:

1,50 $ / 9 $
input / output por 1M tokens (API Gemini)
1.048.576
tokens de contexto (ventana 1M)
65.536
tokens máx en salida
Ene. 2026
knowledge cutoff

Frente a esto, GPT-5.5 Instant había fijado sus bases el 5 de mayo: 5,00 /30,00/ 30,00 por millón de tokens, una ventana de contexto casi idéntica (1.050.000 tokens), pero un output máximo de 128.000 tokens (casi el doble que Flash) y un cutoff de agosto de 2025 (más reciente en fecha, pero anterior a enero de 2026 de Flash).

Las cifras que sacuden la carrera

Bar chart Artificial Analysis Output Speed: Gemini 3.5 Flash a 289 tokens/s, muy por encima de Gemini 3.1 Pro (135), GPT-5.5 (71) y Claude Opus 4.7 (67)
Fuente: Artificial Analysis / TechCrunch, mayo de 2026.

El gráfico de Artificial Analysis lo dice todo. Gemini 3.5 Flash funciona a 289 tokens por segundo en salida. Gemini 3.1 Pro está en 135. GPT-5.5 en modo high está en 71. Claude Opus 4.7 está en 67. La diferencia no es un detalle de especificaciones: es un factor 4 que cambia la naturaleza de los flujos de trabajo agénticos posibles.

En términos de precio en una llamada de API real, Artificial Analysis calcula un coste mixto de **1,31 pormilloˊndetokensparaGemini3.5Flashconcacheˊactivo(ratio7:2:1).ParaGPT5.5Instant,latarifaoficialdeLLMStatses5,00por millón de tokens** para Gemini 3.5 Flash con caché activo (ratio 7:2:1). Para GPT-5.5 Instant, la tarifa oficial de LLM Stats es 5,00 / 30,00 $, una relación de 3,3x en input.

CriterioGemini 3.5 FlashGPT-5.5 Instant
Precio input (1M tokens)1,50 $5,00 $
Precio output (1M tokens)9,00 $30,00 $
Velocidad salida~289 t/s~61,5 t/s
Contexto entrada1.048.5761.050.000
Max output65.536128.000
Knowledge cutoffEne. 2026Ago. 2025
Lanzamiento GA19 may. 20265 may. 2026

En los benchmarks agénticos donde Google publicó sus propias evaluaciones (MCP Atlas, Toolathlon), Gemini 3.5 Flash marca un 83,6 % en la coordinación multi-herramienta. GPT-5.5 no ha publicado sus puntuaciones en estos referentes, lo que dificulta la comparación directa y, precisamente, favorece el narrativo de Google.

La comprensión multimodal (razonamiento sobre imágenes, gráficos, PDFs) es el otro terreno claro: BenchLM mide 83,8 vs 70,4 a favor de Flash, es decir, +13,4 puntos. Para los flujos de trabajo que procesan documentos estructurados o capturas de pantalla, es una ventaja concreta.

Pero Gemini 3.5 Flash no es el número 1 absoluto

Bar chart Artificial Analysis Intelligence Index v4: GPT-5.5 número 1 con 60 puntos, Claude Opus 4.7 y Gemini 3.1 Pro con 57 puntos, Gemini 3.5 Flash por debajo en el ranking
Fuente: The Decoder / Artificial Analysis Intelligence Index v4.0, mayo de 2026.

El índice de inteligencia de Artificial Analysis (v4.0) recoloca los marcadores. GPT-5.5 es número 1 con 60 puntos. Claude Opus 4.7 y Gemini 3.1 Pro están en 57. Gemini 3.5 Flash queda por debajo en este ranking compuesto, lo cual no es un fracaso sino el posicionamiento deliberado de un modelo Flash en un ecosistema donde la velocidad y el coste priman sobre la puntuación compuesta.

BenchLM.ai lo formula directamente: GPT-5.5 Instant está en 91, Gemini 3.5 Flash en 87 sobre la puntuación global. La diferencia es de 4 puntos, "large enough that you do not need to squint at the spreadsheet to see the difference" según sus propios términos. En razonamiento puro, la ventaja de GPT-5.5 sube a +10,3 puntos (85 vs 74,7) y en ARC-AGI-2 domina claramente: 84,6 % frente a 72,1 %.

El dato más picante viene de un benchmark de conocimiento enciclopédico: Humanity's Last Exam limita a Flash al 40,2 %, por debajo de Gemini 3.1 Pro (44,4 %). Acelerar en agentes tiene un coste: el modelo sabe menos. Es un trade-off asumido, no una sorpresa.

Pick GPT-5.5 if you want the stronger benchmark profile. Gemini 3.5 Flash only becomes the better choice if multimodal and grounded is the priority or you want the cheaper token bill.

~BenchLM.ai, mayo de 2026

GPT-5.5 Instant también tiene su zona frágil. The Decoder midió una tasa de alucinación del 86 % en AA-Omniscience cuando el modelo no conoce la respuesta (frente al 36 % de Claude Opus 4.7). OpenAI reivindica un -52,5 % de alucinaciones frente a GPT-5.3 Instant, pero la paradoja es real: el modelo más preciso en las preguntas conocidas es también el menos calibrado en las desconocidas. Para los casos de uso de derecho, medicina o finanzas, esa brecha de calibración importa.

El segmento "rápido" se vuelve estratégico

Tulsee Doshi, directora sénior en Google, describió la arquitectura objetivo durante I/O 2026:

3.5 Pro becomes your orchestrator, your planner, and then it actually can leverage Flash to be the various sub-agents.

Tulsee Doshi· Senior Director, GoogleTechCrunch, 19 de mayo de 2026

Es el pivot que pocos comentarios han subrayado. El debate "Flash vs GPT-5.5 Instant" como modelo único se pierde lo esencial. En un pipeline agéntico moderno no llamas a un solo modelo: tienes un orquestador (el más capaz, por ejemplo Gemini 3.5 Pro o GPT-5.5) que distribuye subtareas a modelos rápidos. Flash no es el competidor de GPT-5.5: es complementario de Gemini 3.5 Pro, y competidor de los modelos fast tier de otros laboratorios.

En ese segmento, la velocidad y el coste no son criterios secundarios. Cuando un agente llama 50 veces a un modelo para validar un pipeline, el factor 4 en velocidad y 3,3 en coste marca la diferencia entre un producto viable y uno demasiado caro para desplegar. Por eso Shopify, Macquarie, Salesforce, Ramp, Xero y AirAsia se citan como adoptantes piloto, antes de cualquier anuncio para el gran público.

La comparación con Claude Haiku 4.5 es pertinente aquí: los dos modelos se baten en el mismo terreno fast/cheap, pero ninguna comparativa tier-a-tier completa es pública en el momento de escribir esto. Los benchmarks parciales disponibles favorecerán a uno u otro según la tarea.

El punto ciego: los precios suben en todas partes

Simon Willison, desarrollador independiente cuyo blog es una referencia en la evaluación de modelos, señaló algo que los comunicados de prensa no mencionan:

all three of the major AI labs are starting to probe the price tolerance of their API customers

Simon Willison· Desarrollador independiente, blog de referencia LLMsimonwillison.net, 19 de mayo de 2026

Los números dan la razón a ese diagnóstico. Gemini 3.5 Flash, a 1,50 /9/9 , cuesta 3 veces su predecesor directo Gemini 3 Flash Preview (0,50 /3/3 ) y 6 veces Gemini 3.1 Flash-Lite. GPT-5.5 Instant es un 20 % más caro que GPT-5.4 a pesar de una reducción del 40 % en el consumo de tokens (la eficiencia sube, la tarifa también). La comparación con los modelos open-weight reencuadra el debate en su contexto de mercado.

Kimi K2.6 (open-weight)
0.14 $
Gemini 3 Flash Preview (ant.)
0.50 $
Gemini 3.5 Flash
1.50 $
GPT-5.5 Instant
5.00 $
Coste input por 1M tokens - segmento 'fast tier' mayo 2026.

Kimi K2.6 de Moonshot AI, lanzado el 6 de mayo de 2026, ilustra la presión desde abajo: open-weight, 1,6T MoE con 31.000 M de parámetros activos, 58,6 % en SWE-bench Pro y 0,14 $ por millón de tokens en input. No es el mismo nivel de benchmark que Flash o GPT-5.5, pero para tareas sencillas y volumen bruto, la diferencia de coste de 10x se convierte en un argumento de selección.

Si tu caso de uso es muy sensible al volumen (millones de llamadas al día), la tabla anterior debe formar parte de tu análisis de ROI. Los laboratorios empujan los precios hacia arriba mientras las alternativas open-weight recuperan la presión desde abajo. Es la dinámica estructural del momento, y no se va a invertir en pocos meses.

Para los builders que ya usan GPT-4o o Gemini 3 Flash, la migración no es neutra: obtienes un modelo más capaz y más rápido, pero también pagas más por llamada. El arbitraje neto depende de tu reducción en tokens consumidos (menos llamadas correctivas si el modelo resuelve mejor a la primera) frente al aumento de la tarifa unitaria.

La otra limitación que hay que conocer para Gemini 3.5 Flash: no tiene "computer use" nativo (control de interfaz gráfica), a diferencia de algunos competidores. Si tu flujo agéntico pasa por la navegación de UI o la manipulación de aplicaciones, verifica las especificaciones de computer use antes de elegir Flash como modelo base.

Si sigues la evolución de los modelos chinos y la guerra de los laboratorios de forma más amplia, nuestra lectura de Qwen 3.7 y el regreso de China a la carrera da buen encuadre sobre por qué el open-weight está sacudiendo la lógica de precios de los laboratorios occidentales.

Preguntas frecuentes

  • ¿Cuál es el precio real de la API de Gemini 3.5 Flash?

    1,50 pormilloˊndetokenseninputy9,00por millón de tokens en input y 9,00 en output. Con caché activo, Artificial Analysis mide un coste mixto de 1,31 pormilloˊndetokens(ratio7:2:1cacheˊ/input/output).ParaGPT5.5Instant,latarifaconfirmadaporLLMStatses5,00por millón de tokens (ratio 7:2:1 caché/input/output). Para GPT-5.5 Instant, la tarifa confirmada por LLM Stats es 5,00/30,00 $. La diferencia es de 3,3x en input y en output.

  • ¿Es realmente Gemini 3.5 Flash 4 veces más rápido que GPT-5.5 Instant?

    Según las mediciones de Artificial Analysis disponibles al 20 de mayo de 2026: Gemini 3.5 Flash se mide entre 199 y 289 tokens/s según el modo (thinking high vs estándar). GPT-5.5 Instant se mide en 61,5 t/s en modo low. La relación es de 3 a 4x según las condiciones de medición. Los datos de OpenAI sobre los modos high de GPT-5.5 no están publicados, lo que hace parcial la comparación.

  • ¿Cómo elegir entre Gemini 3.5 Flash y GPT-5.5 Instant para mis agentes?

    Prioridad al multimodal (documentos, imágenes, PDFs), al coste y el volumen (flujos de producción a gran escala) o a los benchmarks agénticos (MCP Atlas, coordinación multi-herramienta): elige Flash. Prioridad al razonamiento puro (+10,3 puntos BenchLM), a las tareas jurídicas / médicas / financieras o a las salidas de texto largas (output hasta 128K tokens vs 65K en Flash): elige GPT-5.5 Instant. Para los casos de uso mixtos, los dos pueden coexistir en el mismo pipeline (GPT-5.5 orquestador + Flash sub-agentes).

  • ¿Han migrado Cursor, Perplexity o Linear a Gemini 3.5 Flash o a GPT-5.5 Instant?

    En el momento de escribir esto (21 de mayo de 2026), ninguna fuente pública confirma una migración de estas plataformas hacia uno u otro. Es una laguna notable en la información disponible. Como los dos modelos llevan menos de tres semanas en disponibilidad general, los anuncios de asociaciones de terceros son probables en los próximos meses, pero aún no se han hecho públicos.

  • ¿Gemini 3.5 Flash admite computer use (control de interfaz gráfica)?

    No. A diferencia de algunos competidores, Gemini 3.5 Flash no dispone de computer use nativo en el lanzamiento. Es una limitación que debes verificar si tu flujo agéntico implica navegar por interfaces gráficas o manejar aplicaciones de escritorio. La hoja de ruta de Google sobre este punto no es pública.

Para profundizar

El vídeo oficial de Google "Gemini 3.5 Flash: Built for AI Agents" publicado en I/O 2026 da la mejor visión del posicionamiento del producto en 5 minutos: demos agénticas, arquitectura Flash + Pro y los benchmarks que Google eligió destacar.

Vídeo oficial de Google 'Gemini 3.5 Flash: Built for AI Agents' - anuncio I/O 2026, demos agénticas y posicionamiento del producto.

Las fuentes que alimentaron este análisis:

Gemini 3.5: frontier intelligence with action
El anuncio oficial de Google DeepMind del 19 de mayo de 2026. Fuente primaria para las especificaciones, las citas de Kavukcuoglu y la promesa 'You no longer have to trade quality for latency.'
blog.google
With Gemini 3.5 Flash, Google bets its next AI wave on agents, not chatbots
El mejor resumen mediático del lanzamiento. Cita a Tulsee Doshi sobre la arquitectura Pro+Flash y al CTO de AirAsia sobre el 50 % de código producido en modo agéntico. Incluye los gráficos de benchmarks.
techcrunch.com
Gemini 3.5 Flash: API Provider Performance Benchmarking
La fuente de referencia para las mediciones de velocidad (tokens/s), TTFT y coste mixto en condiciones reales. Referencia para los 289 t/s y el coste mixto de 1,31 $ con caché.
artificialanalysis.ai
Gemini 3.5 Flash: more expensive, but Google plan to use it for everything
El ángulo crítico indispensable: 3 veces más caro que su predecesor, sin computer use y la observación sobre la 'price tolerance probe' de los tres grandes laboratorios. Honesto y de referencia.
simonwillison.net
Gemini 3.5 Flash vs GPT-5.5: AI Benchmark Comparison 2026
La comparativa más completa disponible entre los dos modelos, categoría por categoría. Fuente de las puntuaciones 87 vs 91 (global) y del +13,4 en multimodal para Flash.
benchlm.ai

El mismo ecosistema de modelos rápidos merece seguirse en su conjunto. El artículo sobre Gemini Omni Flash y los modelos flash de generación anterior da la perspectiva histórica de cómo Google construyó el posicionamiento Flash desde 2025. Y si te preguntas sobre el uso de la IA en contextos políticos o regulatorios, el caso Mistral-Mensch ilustra cómo el despliegue rápido de los modelos choca con las restricciones institucionales.

La carrera de los modelos ultrarrápidos no está ganada. Gemini 3.5 Flash ha redibujado los parámetros del segmento en mayo de 2026, pero el mercado se mueve rápido: Gemini 3.5 Pro está anunciado para junio, modelos open-weight como Kimi K2.6 presionan desde abajo, y los datos de benchmarks publicados sin replicación de terceros hay que tomarlos con método. La mejor estrategia sigue siendo la que APIDog articula bien: mantén tu harness de evaluación, compara con tus propios datos de producción y nunca te bloquees en un solo proveedor.

Elegir el modelo rápido adecuado para tu pipeline de IA con Blokby