Blog

Gemini Omni Flash : ton personnage, partout dans la vidéo IA

Gemini

Google lance Gemini Omni Flash à I/O 2026 : le premier modèle qui préserve identité et voix d'un personnage à travers toutes tes scènes vidéo. Décryptage complet.

Le 19 mai 2026, pendant la keynote Google I/O à Shoreline Amphitheater, Demis Hassabis monte sur scène et glisse une phrase qui va retenir l'attention de tous ceux qui créent de la vidéo avec l'IA : ton personnage garde sa tête, sa voix, son identité, d'une scène à l'autre. Sans re-prompter, sans perdre la cohérence. C'est précisément ce que promet Gemini Omni Flash, le premier modèle de la nouvelle famille Gemini Omni, disponible dès aujourd'hui dans Google Flow, la Gemini app et YouTube Shorts.

La brique qui manquait aux réalisateurs IA

Si tu as déjà essayé de produire un mini-film avec un outil de vidéo générative, tu connais le mur. Scène 1, ton héros a des yeux marron. Scène 2, il est blond aux yeux bleus. Scène 3, il parle avec une voix différente. La seule solution jusqu'ici : des workflows fastidieux à base de LoRAs persona dans ComfyUI, ou espérer que Sora finisse par stabiliser ses character locks en production.

Gemini Omni Flash attaque ce problème directement. Selon le blog officiel Google :

Omni Flash also improves character consistency, meaning identity and voice are preserved across every scene.

Google Blog· Flow Updates, Google LabsBlog Google, 19 mai 2026

En pratique : tu crées un personnage une fois, tu le "casts" dans autant de scènes que tu veux, et le modèle maintient son apparence, ses traits distinctifs et sa voix de manière cohérente. C'est la brique manquante pour la production narrative en IA, après la cohérence caméra et la simulation physique.

Démo Gemini Omni Flash, personnage féminin de dos jouant du violon dans un champ d'herbe et paquerettes
Une des démos officielles de character consistency publiées par DeepMind. Le même personnage est conservable d'une scène à l'autre, voix incluse. Source : page produit Gemini Omni.

"Create anything from anything" : ce que le modèle sait vraiment faire

La famille Gemini Omni adopte un tagline concis sur la page DeepMind : "Create anything from anything". Derrière ce slogan marketing, les capacités documentées sont concrètes.

4
types d'entrée (image, texte, vidéo, audio)
1
sortie vidéo (image et texte annoncés prochainement)
140+
pays d'accès à Google Flow
SynthID + C2PA
watermark sur chaque output

Voici les capacités officiellement démontrées à I/O 2026, tirées de la page produit DeepMind :

  • Edition vidéo conversationnelle multi-turn (tu affines en dialoguant, pas en ré-écrivant le prompt from scratch)
  • Transfert de mouvement et de style depuis des matériaux de référence
  • Swap de personnage ou d'objet par langage naturel
  • Ajustements d'angle caméra
  • Génération sketch-to-realistic-video
  • Stop motion et claymation
  • Pose transfer et motion capture guidée par dessin
  • Transformation de personnage avec préservation du dialogue
  • Synchronisation textuelle avec l'action à l'écran (historiquement très difficile pour les modèles vidéo)

Sur ce dernier point, Demis Hassabis a insisté pendant la keynote : Gemini Omni intègre "Gemini's reasoning powers with a better grasp of physics concepts such as kinetic energy and gravity."

With world models, AI is moving from predicting text to simulating reality.

~Sundar Pichai, opening keynote I/O 2026

C'est le changement de paradigme que Google annonce depuis plusieurs mois : un modèle qui ne prédit plus du texte, mais qui modélise le monde physique. Ce cadrage a un nom technique : world model. Et Gemini Omni est leur première implémentation grand public de ce concept.

6 prompts officiels pour comprendre l'étendue des possibles

Google a publié six prompts de démonstration sur la page DeepMind. Ils disent mieux que n'importe quelle description ce que le modèle peut recevoir en entrée :

Effet physique visuel

"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material" - simulation physique + transformation d'objet en temps réel

Simulation cinétique

"A marble rolling fast on a chain reaction style track, continuous smooth shot" - physique appliquée + contrainte caméra (plan continu)

Stop motion scientifique

"Claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate" - style + contrainte de précision scientifique simultanés

Explainer avec voiceover

"A skeuomorphism stop motion explainer about how the brain hippocampus works with a compelling voiceover" - synchronisation son + image + style artistique

Motion transfer

"Apply the pose and motion from input video to provided character from this image. Apply style from image reference to the new video" - input multimodal combiné (vidéo + image)

Rendu de texte

"word by word, one word on the screen at a time: did, you, know, that, this, model, can, do, pretty, good, text!?" - résolution d'un problème historique des modèles vidéo

Ces six exemples couvrent volontairement tout le spectre : de l'effet visuellement spectaculaire au cas d'usage éducatif, en passant par le motion capture et l'explainer scientifique. Google montre qu'Omni Flash n'est pas un modèle de niche cinéma, mais un outil de production polyvalent.

Démo Gemini Omni Flash, lucioles lumineuses volant autour d'une fougère stylisée turquoise en stop motion claymation
Stop motion claymation génératif : lucioles autour d'une fougère, l'un des exemples DeepMind les plus aboutis du modèle. Source : page produit Gemini Omni.
Démo Gemini Omni Flash, claymation scientifique illustrant les amino acids en chaîne de billes colorées sur fond bleu
Claymation explainer scientifique : Omni Flash combine style stop motion + précision factuelle dans le même prompt. Source : page produit Gemini Omni.

Distribution : le trio Flow + Gemini + YouTube Shorts

La stratégie de distribution d'Omni Flash est aussi importante que le modèle lui-même. Google a choisi de lancer simultanément sur trois surfaces :

Google Flow : le studio créatif vidéo lancé à I/O 2025, désormais disponible dans 140+ pays. Flow intègre maintenant un agent IA dédié et des Custom Tools que n'importe quel créateur peut construire en langage naturel (et partager, remixer). Un exemple déjà public : pixelBento de Laszlo Gaal, qui génère des effets lo-fi et glitch sans code.

Gemini app : l'interface grand public, avec accès Omni Flash pour les abonnés AI Pro et Ultra. Les apps mobiles Flow (Android en bêta, iOS "coming soon") sont également annoncées.

YouTube Shorts : intégration directe, pour les créateurs qui publient court format.

La baisse de prix mérite un regard critique. À 250 /mois,GoogleAIUltraeˊtaitunproduitpremiumreˊserveˊauxstudios.Aˋ100/mois, Google AI Ultra était un produit premium réservé aux studios. À 100 /mois, il devient compétitif avec Runway Pro et potentiellement avec les abonnements créateurs mid-tier. Pour les créateurs qui produisent du contenu vidéo régulièrement, le calcul change.

Sécurité et traçabilité : SynthID + C2PA

Chaque output Omni Flash est watermarqué de manière imperceptible via SynthID (technologie DeepMind) et porte des métadonnées C2PA (Content Credentials), le standard ouvert pour la provenance du contenu numérique.

C'est une avancée concrète dans un domaine qui reste une zone d'angle mort pour la plupart des outils vidéo IA : la traçabilité. Savoir si une vidéo a été générée par une IA, et par qui, va devenir une nécessité réglementaire dans plusieurs pays (voir les discussions en cours au Parlement européen dans le cadre de l'AI Act). Google anticipe en embarquant ces metadata dès le day-one.

Ce qu'on ne sait pas encore

La page DeepMind est volontairement marketing. Plusieurs informations techniques restent non publiées et il serait inexact de les inventer :

  • Taille du modèle, paramètres, latence
  • Benchmarks publics contre Sora 2, Veo 3 ou Runway Gen-4
  • Durée maximale des vidéos générées
  • Mécanisme technique exact de la character consistency (LoRA-like ? embedding latent persistant ? autre ?)
  • Calendrier des outputs image et texte promis pour la famille Omni

Ces lacunes sont normales pour une annonce day-one. Les benchmarks tiers arrivent généralement dans les semaines qui suivent un lancement. Pour l'instant, les démos keynote et les six prompts officiels sont les seuls indicateurs de performance vérifiables.

Questions fréquentes

  • Gemini Omni Flash est-il disponible sans abonnement payant ?

    Non. L'accès à Gemini Omni Flash nécessite un abonnement Google AI Pro ou Google AI Ultra. L'AI Ultra est passé de 250 aˋ100à 100/mois à I/O 2026. Aucun accès gratuit ou tier limité n'a été annoncé à ce stade.

  • Quelle est la différence entre Gemini Omni Flash et Veo 3 ?

    Veo 3 était déjà dans Google Flow avant I/O 2026, centré sur la génération vidéo haute qualité. Gemini Omni Flash apporte le multimodal input (combiner image, texte, audio et vidéo), la character consistency cross-scene, et l'édition conversationnelle multi-turn. Les deux modèles coexistent dans Flow pour l'instant. Google n'a pas publié de roadmap de convergence.

  • La character consistency fonctionne-t-elle avec des visages réels ?

    Google n'a pas précisé les limites sur les visages réels dans sa documentation publique. Les protections SynthID et C2PA s'appliquent à tous les outputs. L'AI Act européen et les règles de contenu de Google s'appliquent par ailleurs.

  • Google Flow est-il disponible en France ?

    Oui. Google Flow est disponible dans 140+ pays depuis le lancement. La page Flow ne liste pas d'exception géographique pour la France ou l'Union européenne au 19 mai 2026.

Pour aller plus loin

Le keynote complet de Google I/O 2026 est la référence primaire pour vérifier les citations de Pichai et Hassabis. La section Gemini Omni commence aux alentours de 35 minutes :

Le keynote Google I/O 2026. Demis Hassabis introduit Gemini Omni Flash autour de 35 min. Source : chaîne officielle Google.

Les sources principales de ce décryptage :

New agents, mobile apps and Gemini Omni for Google Flow
L'annonce officielle Google Labs sur les mises à jour Flow : la source la plus détaillée sur les fonctionnalités Omni Flash, le Flow Agent et les Custom Tools.
blog.google
Gemini Omni - Google DeepMind
La page produit officielle DeepMind avec les six prompts de démonstration et les capacités documentées du modèle, dont SynthID + C2PA.
deepmind.google
Google I/O 2026 : l'ouverture keynote de Sundar Pichai
La vision stratégique complète de Pichai sur les world models et le passage 'de la prédiction de texte à la simulation de la réalité', avec le contexte de tous les annonces I/O 2026.
blog.google
Google I/O 2026 Keynote - Live blog (9to5Google)
La couverture en direct la plus complète avec les faits chiffrés sur le pricing AI Ultra ($250 a 100 $/mois) et les citations verbatim de Hassabis pendant le keynote.
9to5google.com

Si le sujet de la génération vidéo IA t'intéresse dans un contexte de cours IA plus large, on a décrypté les dernières annonces concurrentes : Grok Build vs Claude Code : le comparatif de mai 2026 et les licenciements Meta autour de la division IA donnent un panorama des forces en présence.

Tu veux intégrer la vidéo IA dans ta stratégie créative ? Échangeons.