Blog

Gemini Omni Flash: tu personaje, en cada escena del vídeo con IA

Gemini

Google lanza Gemini Omni Flash en I/O 2026: el primer modelo que preserva la identidad y la voz de un personaje en todas tus escenas de vídeo. Análisis completo.

El 19 de mayo de 2026, durante el keynote de Google I/O en el Shoreline Amphitheater, Demis Hassabis sube al escenario y suelta una frase que va a captar la atención de todos los que crean vídeo con IA: tu personaje mantiene su cara, su voz, su identidad, de una escena a otra. Sin volver a hacer el prompt, sin perder la coherencia. Eso es exactamente lo que promete Gemini Omni Flash, el primer modelo de la nueva familia Gemini Omni, disponible desde hoy en Google Flow, la app Gemini y YouTube Shorts.

El bloque que les faltaba a los realizadores con IA

Si alguna vez has intentado producir un cortometraje con una herramienta de vídeo generativo, conoces el muro. Escena 1, tu héroe tiene los ojos marrones. Escena 2, es rubio de ojos azules. Escena 3, habla con una voz diferente. La única solución hasta ahora era usar flujos de trabajo tediosos con LoRAs de persona en ComfyUI, o esperar que Sora acabara por estabilizar sus character locks en producción.

Gemini Omni Flash ataca este problema de frente. Según el blog oficial de Google:

Omni Flash also improves character consistency, meaning identity and voice are preserved across every scene.

Google Blog· Flow Updates, Google LabsBlog de Google, 19 de mayo de 2026

En la práctica: creas un personaje una vez, lo "casteas" en tantas escenas como quieras, y el modelo mantiene su apariencia, sus rasgos distintivos y su voz de forma coherente. Es el bloque que faltaba para la producción narrativa con IA, tras la coherencia de cámara y la simulación física.

Demo Gemini Omni Flash, personaje femenino de espaldas tocando el violín en un campo de hierba y margaritas
Una de las demos oficiales de character consistency publicadas por DeepMind. El mismo personaje se puede mantener de una escena a otra, voz incluida. Fuente: página de producto Gemini Omni.

"Create anything from anything": qué sabe hacer realmente el modelo

La familia Gemini Omni adopta un tagline conciso en la página de DeepMind: "Create anything from anything". Detrás de ese eslogan de marketing, las capacidades documentadas son concretas.

4
tipos de entrada (imagen, texto, vídeo, audio)
1
salida vídeo (imagen y texto anunciados próximamente)
140+
países con acceso a Google Flow
SynthID + C2PA
marca de agua en cada output

Estas son las capacidades oficialmente demostradas en I/O 2026, extraídas de la página de producto de DeepMind:

  • Edición de vídeo conversacional multi-turno (afinas dialogando, no reescribiendo el prompt desde cero)
  • Transferencia de movimiento y estilo desde materiales de referencia
  • Cambio de personaje u objeto por lenguaje natural
  • Ajustes de ángulo de cámara
  • Generación sketch-to-realistic-video
  • Stop motion y claymation
  • Transferencia de poses y captura de movimiento guiada por dibujo
  • Transformación de personaje con preservación del diálogo
  • Sincronización textual con la acción en pantalla (históricamente muy difícil para los modelos de vídeo)

Sobre este último punto, Demis Hassabis insistió durante el keynote: Gemini Omni integra "Gemini's reasoning powers with a better grasp of physics concepts such as kinetic energy and gravity."

With world models, AI is moving from predicting text to simulating reality.

~Sundar Pichai, apertura del keynote I/O 2026

Es el cambio de paradigma que Google lleva anunciando varios meses: un modelo que ya no predice texto, sino que modela el mundo físico. Este enfoque tiene un nombre técnico: world model. Y Gemini Omni es su primera implementación para el gran público de ese concepto.

6 prompts oficiales para entender el alcance de las posibilidades

Google publicó seis prompts de demostración en la página de DeepMind. Explican mejor que cualquier descripción qué puede recibir el modelo como entrada:

Efecto físico visual

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material" - simulación física + transformación de objeto en tiempo real

Simulación cinética

"A marble rolling fast on a chain reaction style track, continuous smooth shot" - física aplicada + restricción de cámara (plano continuo)

Stop motion científico

"Claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate" - estilo + restricción de precisión científica simultáneos

Explainer con voz en off

"A skeuomorphism stop motion explainer about how the brain hippocampus works with a compelling voiceover" - sincronización sonido + imagen + estilo artístico

Motion transfer

"Apply the pose and motion from input video to provided character from this image. Apply style from image reference to the new video" - input multimodal combinado (vídeo + imagen)

Renderizado de texto

"word by word, one word on the screen at a time: did, you, know, that, this, model, can, do, pretty, good, text!?" - resolución de un problema histórico de los modelos de vídeo

Estos seis ejemplos cubren deliberadamente todo el espectro: desde el efecto visualmente espectacular hasta el caso de uso educativo, pasando por la captura de movimiento y el explainer científico. Google demuestra que Omni Flash no es un modelo de nicho para cine, sino una herramienta de producción polivalente.

Demo Gemini Omni Flash, luciérnagas luminosas volando alrededor de un helecho estilizado turquesa en stop motion claymation
Stop motion claymation generativo: luciérnagas alrededor de un helecho, uno de los ejemplos DeepMind más logrados del modelo. Fuente: página de producto Gemini Omni.
Demo Gemini Omni Flash, claymation científico que ilustra los aminoácidos en cadena de bolas de colores sobre fondo azul
Claymation explainer científico: Omni Flash combina estilo stop motion + precisión factual en el mismo prompt. Fuente: página de producto Gemini Omni.

Distribución: el trío Flow + Gemini + YouTube Shorts

La estrategia de distribución de Omni Flash es tan importante como el propio modelo. Google optó por lanzarlo simultáneamente en tres superficies:

Google Flow: el estudio creativo de vídeo lanzado en I/O 2025, ahora disponible en más de 140 países. Flow integra ahora un agente de IA dedicado y Custom Tools que cualquier creador puede construir en lenguaje natural (y compartir, remezclar). Un ejemplo ya público: pixelBento de Laszlo Gaal, que genera efectos lo-fi y glitch sin código.

App Gemini: la interfaz para el gran público, con acceso a Omni Flash para los suscriptores de AI Pro y Ultra. También se anuncian las apps móviles de Flow (Android en beta, iOS "coming soon").

YouTube Shorts: integración directa para los creadores que publican en formato corto.

La bajada de precio merece una mirada crítica. A 250 /mes,GoogleAIUltraeraunproductopremiumreservadoaestudios.A100/mes, Google AI Ultra era un producto premium reservado a estudios. A 100 /mes, se vuelve competitivo con Runway Pro y potencialmente con las suscripciones de creadores mid-tier. Para los creadores que producen contenido de vídeo con regularidad, el cálculo cambia.

Seguridad y trazabilidad: SynthID + C2PA

Cada output de Omni Flash está marcado de forma imperceptible mediante SynthID (tecnología DeepMind) y lleva metadatos C2PA (Content Credentials), el estándar abierto para la procedencia del contenido digital.

Es un avance concreto en un ámbito que sigue siendo un punto ciego para la mayoría de las herramientas de vídeo con IA: la trazabilidad. Saber si un vídeo ha sido generado por una IA, y por quién, se convertirá en una necesidad regulatoria en varios países (ver los debates en curso en el Parlamento Europeo en el marco del AI Act). Google se adelanta incorporando estos metadatos desde el primer día.

Lo que aún no sabemos

La página de DeepMind es deliberadamente marketiniana. Varia información técnica sigue sin publicarse, y sería inexacto inventársela:

  • Tamaño del modelo, parámetros, latencia
  • Benchmarks públicos frente a Sora 2, Veo 3 o Runway Gen-4
  • Duración máxima de los vídeos generados
  • Mecanismo técnico exacto de la character consistency (¿tipo LoRA? ¿embedding latente persistente? ¿otra cosa?)
  • Calendario de los outputs de imagen y texto prometidos para la familia Omni

Estas lagunas son normales para un anuncio del primer día. Los benchmarks de terceros suelen llegar en las semanas siguientes al lanzamiento. Por ahora, las demos del keynote y los seis prompts oficiales son los únicos indicadores de rendimiento verificables.

Preguntas frecuentes

  • ¿Gemini Omni Flash está disponible sin suscripción de pago?

    No. El acceso a Gemini Omni Flash requiere una suscripción a Google AI Pro o Google AI Ultra. El AI Ultra pasó de 250 a100a 100/mes en I/O 2026. No se ha anunciado ningún acceso gratuito ni nivel limitado en esta etapa.

  • ¿Cuál es la diferencia entre Gemini Omni Flash y Veo 3?

    Veo 3 ya estaba en Google Flow antes de I/O 2026, centrado en la generación de vídeo de alta calidad. Gemini Omni Flash incorpora el input multimodal (combinar imagen, texto, audio y vídeo), la character consistency cross-scene y la edición conversacional multi-turno. Los dos modelos coexisten en Flow por ahora. Google no ha publicado una hoja de ruta de convergencia.

  • ¿Funciona la character consistency con rostros reales?

    Google no ha precisado los límites sobre los rostros reales en su documentación pública. Las protecciones SynthID y C2PA se aplican a todos los outputs. El AI Act europeo y las normas de contenido de Google también se aplican.

  • ¿Está disponible Google Flow en España?

    Sí. Google Flow está disponible en más de 140 países desde el lanzamiento. La página de Flow no lista ninguna excepción geográfica para España o la Unión Europea a 19 de mayo de 2026.

Para profundizar

El keynote completo de Google I/O 2026 es la referencia primaria para verificar las citas de Pichai y Hassabis. La sección de Gemini Omni empieza aproximadamente en el minuto 35:

El keynote de Google I/O 2026. Demis Hassabis presenta Gemini Omni Flash alrededor del minuto 35. Fuente: canal oficial de Google.

Las fuentes principales de este análisis:

New agents, mobile apps and Gemini Omni for Google Flow
El anuncio oficial de Google Labs sobre las actualizaciones de Flow: la fuente más detallada sobre las funcionalidades de Omni Flash, el Flow Agent y los Custom Tools.
blog.google
Gemini Omni - Google DeepMind
La página de producto oficial de DeepMind con los seis prompts de demostración y las capacidades documentadas del modelo, incluidos SynthID + C2PA.
deepmind.google
Google I/O 2026: el keynote de apertura de Sundar Pichai
La visión estratégica completa de Pichai sobre los world models y el paso 'de la predicción de texto a la simulación de la realidad', con el contexto de todos los anuncios de I/O 2026.
blog.google
Google I/O 2026 Keynote - Live blog (9to5Google)
La cobertura en directo más completa con los datos de precio del AI Ultra ($250 a 100 $/mes) y las citas verbatim de Hassabis durante el keynote.
9to5google.com

Si el tema de la generación de vídeo con IA te interesa en un contexto más amplio de IA, analizamos los últimos anuncios de la competencia: Grok Build vs Claude Code: el comparativo de mayo de 2026 y los despidos de Meta en torno a la división de IA dan un panorama de las fuerzas en juego.

¿Quieres integrar el vídeo con IA en tu estrategia creativa? Hablamos.