El 19 de mayo de 2026, durante el keynote de Google I/O en el Shoreline Amphitheater, Demis Hassabis sube al escenario y suelta una frase que va a captar la atención de todos los que crean vídeo con IA: tu personaje mantiene su cara, su voz, su identidad, de una escena a otra. Sin volver a hacer el prompt, sin perder la coherencia. Eso es exactamente lo que promete Gemini Omni Flash, el primer modelo de la nueva familia Gemini Omni, disponible desde hoy en Google Flow, la app Gemini y YouTube Shorts.
El bloque que les faltaba a los realizadores con IA
Si alguna vez has intentado producir un cortometraje con una herramienta de vídeo generativo, conoces el muro. Escena 1, tu héroe tiene los ojos marrones. Escena 2, es rubio de ojos azules. Escena 3, habla con una voz diferente. La única solución hasta ahora era usar flujos de trabajo tediosos con LoRAs de persona en ComfyUI, o esperar que Sora acabara por estabilizar sus character locks en producción.
Gemini Omni Flash ataca este problema de frente. Según el blog oficial de Google:
“Omni Flash also improves character consistency, meaning identity and voice are preserved across every scene.
”
En la práctica: creas un personaje una vez, lo "casteas" en tantas escenas como quieras, y el modelo mantiene su apariencia, sus rasgos distintivos y su voz de forma coherente. Es el bloque que faltaba para la producción narrativa con IA, tras la coherencia de cámara y la simulación física.

"Create anything from anything": qué sabe hacer realmente el modelo
La familia Gemini Omni adopta un tagline conciso en la página de DeepMind: "Create anything from anything". Detrás de ese eslogan de marketing, las capacidades documentadas son concretas.
Estas son las capacidades oficialmente demostradas en I/O 2026, extraídas de la página de producto de DeepMind:
- Edición de vídeo conversacional multi-turno (afinas dialogando, no reescribiendo el prompt desde cero)
- Transferencia de movimiento y estilo desde materiales de referencia
- Cambio de personaje u objeto por lenguaje natural
- Ajustes de ángulo de cámara
- Generación sketch-to-realistic-video
- Stop motion y claymation
- Transferencia de poses y captura de movimiento guiada por dibujo
- Transformación de personaje con preservación del diálogo
- Sincronización textual con la acción en pantalla (históricamente muy difícil para los modelos de vídeo)
Sobre este último punto, Demis Hassabis insistió durante el keynote: Gemini Omni integra "Gemini's reasoning powers with a better grasp of physics concepts such as kinetic energy and gravity."
With world models, AI is moving from predicting text to simulating reality.
Es el cambio de paradigma que Google lleva anunciando varios meses: un modelo que ya no predice texto, sino que modela el mundo físico. Este enfoque tiene un nombre técnico: world model. Y Gemini Omni es su primera implementación para el gran público de ese concepto.
6 prompts oficiales para entender el alcance de las posibilidades
Google publicó seis prompts de demostración en la página de DeepMind. Explican mejor que cualquier descripción qué puede recibir el modelo como entrada:
Efecto físico visual
"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material" - simulación física + transformación de objeto en tiempo real
Simulación cinética
"A marble rolling fast on a chain reaction style track, continuous smooth shot" - física aplicada + restricción de cámara (plano continuo)
Stop motion científico
"Claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate" - estilo + restricción de precisión científica simultáneos
Explainer con voz en off
"A skeuomorphism stop motion explainer about how the brain hippocampus works with a compelling voiceover" - sincronización sonido + imagen + estilo artístico
Motion transfer
"Apply the pose and motion from input video to provided character from this image. Apply style from image reference to the new video" - input multimodal combinado (vídeo + imagen)
Renderizado de texto
"word by word, one word on the screen at a time: did, you, know, that, this, model, can, do, pretty, good, text!?" - resolución de un problema histórico de los modelos de vídeo
Estos seis ejemplos cubren deliberadamente todo el espectro: desde el efecto visualmente espectacular hasta el caso de uso educativo, pasando por la captura de movimiento y el explainer científico. Google demuestra que Omni Flash no es un modelo de nicho para cine, sino una herramienta de producción polivalente.


Distribución: el trío Flow + Gemini + YouTube Shorts
La estrategia de distribución de Omni Flash es tan importante como el propio modelo. Google optó por lanzarlo simultáneamente en tres superficies:
Google Flow: el estudio creativo de vídeo lanzado en I/O 2025, ahora disponible en más de 140 países. Flow integra ahora un agente de IA dedicado y Custom Tools que cualquier creador puede construir en lenguaje natural (y compartir, remezclar). Un ejemplo ya público: pixelBento de Laszlo Gaal, que genera efectos lo-fi y glitch sin código.
App Gemini: la interfaz para el gran público, con acceso a Omni Flash para los suscriptores de AI Pro y Ultra. También se anuncian las apps móviles de Flow (Android en beta, iOS "coming soon").
YouTube Shorts: integración directa para los creadores que publican en formato corto.
La bajada de precio merece una mirada crítica. A 250 /mes, se vuelve competitivo con Runway Pro y potencialmente con las suscripciones de creadores mid-tier. Para los creadores que producen contenido de vídeo con regularidad, el cálculo cambia.
Seguridad y trazabilidad: SynthID + C2PA
Cada output de Omni Flash está marcado de forma imperceptible mediante SynthID (tecnología DeepMind) y lleva metadatos C2PA (Content Credentials), el estándar abierto para la procedencia del contenido digital.
Es un avance concreto en un ámbito que sigue siendo un punto ciego para la mayoría de las herramientas de vídeo con IA: la trazabilidad. Saber si un vídeo ha sido generado por una IA, y por quién, se convertirá en una necesidad regulatoria en varios países (ver los debates en curso en el Parlamento Europeo en el marco del AI Act). Google se adelanta incorporando estos metadatos desde el primer día.
Lo que aún no sabemos
La página de DeepMind es deliberadamente marketiniana. Varia información técnica sigue sin publicarse, y sería inexacto inventársela:
- Tamaño del modelo, parámetros, latencia
- Benchmarks públicos frente a Sora 2, Veo 3 o Runway Gen-4
- Duración máxima de los vídeos generados
- Mecanismo técnico exacto de la character consistency (¿tipo LoRA? ¿embedding latente persistente? ¿otra cosa?)
- Calendario de los outputs de imagen y texto prometidos para la familia Omni
Estas lagunas son normales para un anuncio del primer día. Los benchmarks de terceros suelen llegar en las semanas siguientes al lanzamiento. Por ahora, las demos del keynote y los seis prompts oficiales son los únicos indicadores de rendimiento verificables.
Preguntas frecuentes
¿Gemini Omni Flash está disponible sin suscripción de pago?
No. El acceso a Gemini Omni Flash requiere una suscripción a Google AI Pro o Google AI Ultra. El AI Ultra pasó de 250 /mes en I/O 2026. No se ha anunciado ningún acceso gratuito ni nivel limitado en esta etapa.
¿Cuál es la diferencia entre Gemini Omni Flash y Veo 3?
Veo 3 ya estaba en Google Flow antes de I/O 2026, centrado en la generación de vídeo de alta calidad. Gemini Omni Flash incorpora el input multimodal (combinar imagen, texto, audio y vídeo), la character consistency cross-scene y la edición conversacional multi-turno. Los dos modelos coexisten en Flow por ahora. Google no ha publicado una hoja de ruta de convergencia.
¿Funciona la character consistency con rostros reales?
Google no ha precisado los límites sobre los rostros reales en su documentación pública. Las protecciones SynthID y C2PA se aplican a todos los outputs. El AI Act europeo y las normas de contenido de Google también se aplican.
¿Está disponible Google Flow en España?
Sí. Google Flow está disponible en más de 140 países desde el lanzamiento. La página de Flow no lista ninguna excepción geográfica para España o la Unión Europea a 19 de mayo de 2026.
Para profundizar
El keynote completo de Google I/O 2026 es la referencia primaria para verificar las citas de Pichai y Hassabis. La sección de Gemini Omni empieza aproximadamente en el minuto 35:
Las fuentes principales de este análisis:
Si el tema de la generación de vídeo con IA te interesa en un contexto más amplio de IA, analizamos los últimos anuncios de la competencia: Grok Build vs Claude Code: el comparativo de mayo de 2026 y los despidos de Meta en torno a la división de IA dan un panorama de las fuerzas en juego.
¿Quieres integrar el vídeo con IA en tu estrategia creativa? Hablamos.