Pensabas que "rápido" e "inteligente" no podían coexistir en un solo modelo. Google I/O 2026, 19 de mayo: Koray Kavukcuoglu sube al escenario y llega Gemini 3.5 Flash. Catorce días después de GPT-5.5 Instant de OpenAI, la respuesta de Mountain View presenta 289 tokens por segundo, una ventana de contexto de un millón de tokens y un precio tres veces inferior al de su competidor directo. El segmento "rápido y barato" acaba de cambiar de coordenadas.
Versión corta
Lo que Google entregó el 19 de mayo

Cuando Koray Kavukcuoglu, director técnico de DeepMind, anuncia Gemini 3.5 Flash, no vende un modelo de sustitución. Vende un reposicionamiento. El mensaje central, recogido en el blog oficial de Google:
“Gemini 3.5 Flash delivers intelligence that rivals large flagship models on multiple dimensions at speeds you have come to expect from the Flash series. It's our strongest agentic and coding model yet, outperforming Gemini 3.1 Pro on key benchmarks...often at less than half the cost of comparable models.
”
Ya no es el compromiso habitual de "Flash = peor pero más barato". Es la promesa de que el compromiso ya no existe. La fórmula oficial del blog de Google DeepMind lo dice directamente: "You no longer have to trade quality for latency."
Para los builders que evalúan, las especificaciones técnicas:
Frente a esto, GPT-5.5 Instant había fijado sus bases el 5 de mayo: 5,00 por millón de tokens, una ventana de contexto casi idéntica (1.050.000 tokens), pero un output máximo de 128.000 tokens (casi el doble que Flash) y un cutoff de agosto de 2025 (más reciente en fecha, pero anterior a enero de 2026 de Flash).
Las cifras que sacuden la carrera

El gráfico de Artificial Analysis lo dice todo. Gemini 3.5 Flash funciona a 289 tokens por segundo en salida. Gemini 3.1 Pro está en 135. GPT-5.5 en modo high está en 71. Claude Opus 4.7 está en 67. La diferencia no es un detalle de especificaciones: es un factor 4 que cambia la naturaleza de los flujos de trabajo agénticos posibles.
En términos de precio en una llamada de API real, Artificial Analysis calcula un coste mixto de **1,31 / 30,00 $, una relación de 3,3x en input.
| Criterio | Gemini 3.5 Flash | GPT-5.5 Instant |
|---|---|---|
| Precio input (1M tokens) | 1,50 $ | 5,00 $ |
| Precio output (1M tokens) | 9,00 $ | 30,00 $ |
| Velocidad salida | ~289 t/s | ~61,5 t/s |
| Contexto entrada | 1.048.576 | 1.050.000 |
| Max output | 65.536 | 128.000 |
| Knowledge cutoff | Ene. 2026 | Ago. 2025 |
| Lanzamiento GA | 19 may. 2026 | 5 may. 2026 |
En los benchmarks agénticos donde Google publicó sus propias evaluaciones (MCP Atlas, Toolathlon), Gemini 3.5 Flash marca un 83,6 % en la coordinación multi-herramienta. GPT-5.5 no ha publicado sus puntuaciones en estos referentes, lo que dificulta la comparación directa y, precisamente, favorece el narrativo de Google.
La comprensión multimodal (razonamiento sobre imágenes, gráficos, PDFs) es el otro terreno claro: BenchLM mide 83,8 vs 70,4 a favor de Flash, es decir, +13,4 puntos. Para los flujos de trabajo que procesan documentos estructurados o capturas de pantalla, es una ventaja concreta.
Pero Gemini 3.5 Flash no es el número 1 absoluto

El índice de inteligencia de Artificial Analysis (v4.0) recoloca los marcadores. GPT-5.5 es número 1 con 60 puntos. Claude Opus 4.7 y Gemini 3.1 Pro están en 57. Gemini 3.5 Flash queda por debajo en este ranking compuesto, lo cual no es un fracaso sino el posicionamiento deliberado de un modelo Flash en un ecosistema donde la velocidad y el coste priman sobre la puntuación compuesta.
BenchLM.ai lo formula directamente: GPT-5.5 Instant está en 91, Gemini 3.5 Flash en 87 sobre la puntuación global. La diferencia es de 4 puntos, "large enough that you do not need to squint at the spreadsheet to see the difference" según sus propios términos. En razonamiento puro, la ventaja de GPT-5.5 sube a +10,3 puntos (85 vs 74,7) y en ARC-AGI-2 domina claramente: 84,6 % frente a 72,1 %.
El dato más picante viene de un benchmark de conocimiento enciclopédico: Humanity's Last Exam limita a Flash al 40,2 %, por debajo de Gemini 3.1 Pro (44,4 %). Acelerar en agentes tiene un coste: el modelo sabe menos. Es un trade-off asumido, no una sorpresa.
Pick GPT-5.5 if you want the stronger benchmark profile. Gemini 3.5 Flash only becomes the better choice if multimodal and grounded is the priority or you want the cheaper token bill.
GPT-5.5 Instant también tiene su zona frágil. The Decoder midió una tasa de alucinación del 86 % en AA-Omniscience cuando el modelo no conoce la respuesta (frente al 36 % de Claude Opus 4.7). OpenAI reivindica un -52,5 % de alucinaciones frente a GPT-5.3 Instant, pero la paradoja es real: el modelo más preciso en las preguntas conocidas es también el menos calibrado en las desconocidas. Para los casos de uso de derecho, medicina o finanzas, esa brecha de calibración importa.
El segmento "rápido" se vuelve estratégico
Tulsee Doshi, directora sénior en Google, describió la arquitectura objetivo durante I/O 2026:
“3.5 Pro becomes your orchestrator, your planner, and then it actually can leverage Flash to be the various sub-agents.
”
Es el pivot que pocos comentarios han subrayado. El debate "Flash vs GPT-5.5 Instant" como modelo único se pierde lo esencial. En un pipeline agéntico moderno no llamas a un solo modelo: tienes un orquestador (el más capaz, por ejemplo Gemini 3.5 Pro o GPT-5.5) que distribuye subtareas a modelos rápidos. Flash no es el competidor de GPT-5.5: es complementario de Gemini 3.5 Pro, y competidor de los modelos fast tier de otros laboratorios.
En ese segmento, la velocidad y el coste no son criterios secundarios. Cuando un agente llama 50 veces a un modelo para validar un pipeline, el factor 4 en velocidad y 3,3 en coste marca la diferencia entre un producto viable y uno demasiado caro para desplegar. Por eso Shopify, Macquarie, Salesforce, Ramp, Xero y AirAsia se citan como adoptantes piloto, antes de cualquier anuncio para el gran público.
La comparación con Claude Haiku 4.5 es pertinente aquí: los dos modelos se baten en el mismo terreno fast/cheap, pero ninguna comparativa tier-a-tier completa es pública en el momento de escribir esto. Los benchmarks parciales disponibles favorecerán a uno u otro según la tarea.
El punto ciego: los precios suben en todas partes
Simon Willison, desarrollador independiente cuyo blog es una referencia en la evaluación de modelos, señaló algo que los comunicados de prensa no mencionan:
“all three of the major AI labs are starting to probe the price tolerance of their API customers
”
Los números dan la razón a ese diagnóstico. Gemini 3.5 Flash, a 1,50 , cuesta 3 veces su predecesor directo Gemini 3 Flash Preview (0,50 ) y 6 veces Gemini 3.1 Flash-Lite. GPT-5.5 Instant es un 20 % más caro que GPT-5.4 a pesar de una reducción del 40 % en el consumo de tokens (la eficiencia sube, la tarifa también). La comparación con los modelos open-weight reencuadra el debate en su contexto de mercado.
Kimi K2.6 de Moonshot AI, lanzado el 6 de mayo de 2026, ilustra la presión desde abajo: open-weight, 1,6T MoE con 31.000 M de parámetros activos, 58,6 % en SWE-bench Pro y 0,14 $ por millón de tokens en input. No es el mismo nivel de benchmark que Flash o GPT-5.5, pero para tareas sencillas y volumen bruto, la diferencia de coste de 10x se convierte en un argumento de selección.
Si tu caso de uso es muy sensible al volumen (millones de llamadas al día), la tabla anterior debe formar parte de tu análisis de ROI. Los laboratorios empujan los precios hacia arriba mientras las alternativas open-weight recuperan la presión desde abajo. Es la dinámica estructural del momento, y no se va a invertir en pocos meses.
Para los builders que ya usan GPT-4o o Gemini 3 Flash, la migración no es neutra: obtienes un modelo más capaz y más rápido, pero también pagas más por llamada. El arbitraje neto depende de tu reducción en tokens consumidos (menos llamadas correctivas si el modelo resuelve mejor a la primera) frente al aumento de la tarifa unitaria.
La otra limitación que hay que conocer para Gemini 3.5 Flash: no tiene "computer use" nativo (control de interfaz gráfica), a diferencia de algunos competidores. Si tu flujo agéntico pasa por la navegación de UI o la manipulación de aplicaciones, verifica las especificaciones de computer use antes de elegir Flash como modelo base.
Si sigues la evolución de los modelos chinos y la guerra de los laboratorios de forma más amplia, nuestra lectura de Qwen 3.7 y el regreso de China a la carrera da buen encuadre sobre por qué el open-weight está sacudiendo la lógica de precios de los laboratorios occidentales.
Preguntas frecuentes
¿Cuál es el precio real de la API de Gemini 3.5 Flash?
1,50 en output. Con caché activo, Artificial Analysis mide un coste mixto de 1,31 /30,00 $. La diferencia es de 3,3x en input y en output.
¿Es realmente Gemini 3.5 Flash 4 veces más rápido que GPT-5.5 Instant?
Según las mediciones de Artificial Analysis disponibles al 20 de mayo de 2026: Gemini 3.5 Flash se mide entre 199 y 289 tokens/s según el modo (thinking high vs estándar). GPT-5.5 Instant se mide en 61,5 t/s en modo low. La relación es de 3 a 4x según las condiciones de medición. Los datos de OpenAI sobre los modos high de GPT-5.5 no están publicados, lo que hace parcial la comparación.
¿Cómo elegir entre Gemini 3.5 Flash y GPT-5.5 Instant para mis agentes?
Prioridad al multimodal (documentos, imágenes, PDFs), al coste y el volumen (flujos de producción a gran escala) o a los benchmarks agénticos (MCP Atlas, coordinación multi-herramienta): elige Flash. Prioridad al razonamiento puro (+10,3 puntos BenchLM), a las tareas jurídicas / médicas / financieras o a las salidas de texto largas (output hasta 128K tokens vs 65K en Flash): elige GPT-5.5 Instant. Para los casos de uso mixtos, los dos pueden coexistir en el mismo pipeline (GPT-5.5 orquestador + Flash sub-agentes).
¿Han migrado Cursor, Perplexity o Linear a Gemini 3.5 Flash o a GPT-5.5 Instant?
En el momento de escribir esto (21 de mayo de 2026), ninguna fuente pública confirma una migración de estas plataformas hacia uno u otro. Es una laguna notable en la información disponible. Como los dos modelos llevan menos de tres semanas en disponibilidad general, los anuncios de asociaciones de terceros son probables en los próximos meses, pero aún no se han hecho públicos.
¿Gemini 3.5 Flash admite computer use (control de interfaz gráfica)?
No. A diferencia de algunos competidores, Gemini 3.5 Flash no dispone de computer use nativo en el lanzamiento. Es una limitación que debes verificar si tu flujo agéntico implica navegar por interfaces gráficas o manejar aplicaciones de escritorio. La hoja de ruta de Google sobre este punto no es pública.
Para profundizar
El vídeo oficial de Google "Gemini 3.5 Flash: Built for AI Agents" publicado en I/O 2026 da la mejor visión del posicionamiento del producto en 5 minutos: demos agénticas, arquitectura Flash + Pro y los benchmarks que Google eligió destacar.
Las fuentes que alimentaron este análisis:
El mismo ecosistema de modelos rápidos merece seguirse en su conjunto. El artículo sobre Gemini Omni Flash y los modelos flash de generación anterior da la perspectiva histórica de cómo Google construyó el posicionamiento Flash desde 2025. Y si te preguntas sobre el uso de la IA en contextos políticos o regulatorios, el caso Mistral-Mensch ilustra cómo el despliegue rápido de los modelos choca con las restricciones institucionales.
La carrera de los modelos ultrarrápidos no está ganada. Gemini 3.5 Flash ha redibujado los parámetros del segmento en mayo de 2026, pero el mercado se mueve rápido: Gemini 3.5 Pro está anunciado para junio, modelos open-weight como Kimi K2.6 presionan desde abajo, y los datos de benchmarks publicados sin replicación de terceros hay que tomarlos con método. La mejor estrategia sigue siendo la que APIDog articula bien: mantén tu harness de evaluación, compara con tus propios datos de producción y nunca te bloquees en un solo proveedor.
Elegir el modelo rápido adecuado para tu pipeline de IA con Blokby
