Le 19 mai 2026, pendant la keynote Google I/O à Shoreline Amphitheater, Demis Hassabis monte sur scène et glisse une phrase qui va retenir l'attention de tous ceux qui créent de la vidéo avec l'IA : ton personnage garde sa tête, sa voix, son identité, d'une scène à l'autre. Sans re-prompter, sans perdre la cohérence. C'est précisément ce que promet Gemini Omni Flash, le premier modèle de la nouvelle famille Gemini Omni, disponible dès aujourd'hui dans Google Flow, la Gemini app et YouTube Shorts.
La brique qui manquait aux réalisateurs IA
Si tu as déjà essayé de produire un mini-film avec un outil de vidéo générative, tu connais le mur. Scène 1, ton héros a des yeux marron. Scène 2, il est blond aux yeux bleus. Scène 3, il parle avec une voix différente. La seule solution jusqu'ici : des workflows fastidieux à base de LoRAs persona dans ComfyUI, ou espérer que Sora finisse par stabiliser ses character locks en production.
Gemini Omni Flash attaque ce problème directement. Selon le blog officiel Google :
“Omni Flash also improves character consistency, meaning identity and voice are preserved across every scene.
”
En pratique : tu crées un personnage une fois, tu le "casts" dans autant de scènes que tu veux, et le modèle maintient son apparence, ses traits distinctifs et sa voix de manière cohérente. C'est la brique manquante pour la production narrative en IA, après la cohérence caméra et la simulation physique.

"Create anything from anything" : ce que le modèle sait vraiment faire
La famille Gemini Omni adopte un tagline concis sur la page DeepMind : "Create anything from anything". Derrière ce slogan marketing, les capacités documentées sont concrètes.
Voici les capacités officiellement démontrées à I/O 2026, tirées de la page produit DeepMind :
- Edition vidéo conversationnelle multi-turn (tu affines en dialoguant, pas en ré-écrivant le prompt from scratch)
- Transfert de mouvement et de style depuis des matériaux de référence
- Swap de personnage ou d'objet par langage naturel
- Ajustements d'angle caméra
- Génération sketch-to-realistic-video
- Stop motion et claymation
- Pose transfer et motion capture guidée par dessin
- Transformation de personnage avec préservation du dialogue
- Synchronisation textuelle avec l'action à l'écran (historiquement très difficile pour les modèles vidéo)
Sur ce dernier point, Demis Hassabis a insisté pendant la keynote : Gemini Omni intègre "Gemini's reasoning powers with a better grasp of physics concepts such as kinetic energy and gravity."
With world models, AI is moving from predicting text to simulating reality.
C'est le changement de paradigme que Google annonce depuis plusieurs mois : un modèle qui ne prédit plus du texte, mais qui modélise le monde physique. Ce cadrage a un nom technique : world model. Et Gemini Omni est leur première implémentation grand public de ce concept.
6 prompts officiels pour comprendre l'étendue des possibles
Google a publié six prompts de démonstration sur la page DeepMind. Ils disent mieux que n'importe quelle description ce que le modèle peut recevoir en entrée :
Effet physique visuel
"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material" - simulation physique + transformation d'objet en temps réel
Simulation cinétique
"A marble rolling fast on a chain reaction style track, continuous smooth shot" - physique appliquée + contrainte caméra (plan continu)
Stop motion scientifique
"Claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate" - style + contrainte de précision scientifique simultanés
Explainer avec voiceover
"A skeuomorphism stop motion explainer about how the brain hippocampus works with a compelling voiceover" - synchronisation son + image + style artistique
Motion transfer
"Apply the pose and motion from input video to provided character from this image. Apply style from image reference to the new video" - input multimodal combiné (vidéo + image)
Rendu de texte
"word by word, one word on the screen at a time: did, you, know, that, this, model, can, do, pretty, good, text!?" - résolution d'un problème historique des modèles vidéo
Ces six exemples couvrent volontairement tout le spectre : de l'effet visuellement spectaculaire au cas d'usage éducatif, en passant par le motion capture et l'explainer scientifique. Google montre qu'Omni Flash n'est pas un modèle de niche cinéma, mais un outil de production polyvalent.


Distribution : le trio Flow + Gemini + YouTube Shorts
La stratégie de distribution d'Omni Flash est aussi importante que le modèle lui-même. Google a choisi de lancer simultanément sur trois surfaces :
Google Flow : le studio créatif vidéo lancé à I/O 2025, désormais disponible dans 140+ pays. Flow intègre maintenant un agent IA dédié et des Custom Tools que n'importe quel créateur peut construire en langage naturel (et partager, remixer). Un exemple déjà public : pixelBento de Laszlo Gaal, qui génère des effets lo-fi et glitch sans code.
Gemini app : l'interface grand public, avec accès Omni Flash pour les abonnés AI Pro et Ultra. Les apps mobiles Flow (Android en bêta, iOS "coming soon") sont également annoncées.
YouTube Shorts : intégration directe, pour les créateurs qui publient court format.
La baisse de prix mérite un regard critique. À 250 /mois, il devient compétitif avec Runway Pro et potentiellement avec les abonnements créateurs mid-tier. Pour les créateurs qui produisent du contenu vidéo régulièrement, le calcul change.
Sécurité et traçabilité : SynthID + C2PA
Chaque output Omni Flash est watermarqué de manière imperceptible via SynthID (technologie DeepMind) et porte des métadonnées C2PA (Content Credentials), le standard ouvert pour la provenance du contenu numérique.
C'est une avancée concrète dans un domaine qui reste une zone d'angle mort pour la plupart des outils vidéo IA : la traçabilité. Savoir si une vidéo a été générée par une IA, et par qui, va devenir une nécessité réglementaire dans plusieurs pays (voir les discussions en cours au Parlement européen dans le cadre de l'AI Act). Google anticipe en embarquant ces metadata dès le day-one.
Ce qu'on ne sait pas encore
La page DeepMind est volontairement marketing. Plusieurs informations techniques restent non publiées et il serait inexact de les inventer :
- Taille du modèle, paramètres, latence
- Benchmarks publics contre Sora 2, Veo 3 ou Runway Gen-4
- Durée maximale des vidéos générées
- Mécanisme technique exact de la character consistency (LoRA-like ? embedding latent persistant ? autre ?)
- Calendrier des outputs image et texte promis pour la famille Omni
Ces lacunes sont normales pour une annonce day-one. Les benchmarks tiers arrivent généralement dans les semaines qui suivent un lancement. Pour l'instant, les démos keynote et les six prompts officiels sont les seuls indicateurs de performance vérifiables.
Questions fréquentes
Gemini Omni Flash est-il disponible sans abonnement payant ?
Non. L'accès à Gemini Omni Flash nécessite un abonnement Google AI Pro ou Google AI Ultra. L'AI Ultra est passé de 250 /mois à I/O 2026. Aucun accès gratuit ou tier limité n'a été annoncé à ce stade.
Quelle est la différence entre Gemini Omni Flash et Veo 3 ?
Veo 3 était déjà dans Google Flow avant I/O 2026, centré sur la génération vidéo haute qualité. Gemini Omni Flash apporte le multimodal input (combiner image, texte, audio et vidéo), la character consistency cross-scene, et l'édition conversationnelle multi-turn. Les deux modèles coexistent dans Flow pour l'instant. Google n'a pas publié de roadmap de convergence.
La character consistency fonctionne-t-elle avec des visages réels ?
Google n'a pas précisé les limites sur les visages réels dans sa documentation publique. Les protections SynthID et C2PA s'appliquent à tous les outputs. L'AI Act européen et les règles de contenu de Google s'appliquent par ailleurs.
Google Flow est-il disponible en France ?
Oui. Google Flow est disponible dans 140+ pays depuis le lancement. La page Flow ne liste pas d'exception géographique pour la France ou l'Union européenne au 19 mai 2026.
Pour aller plus loin
Le keynote complet de Google I/O 2026 est la référence primaire pour vérifier les citations de Pichai et Hassabis. La section Gemini Omni commence aux alentours de 35 minutes :
Les sources principales de ce décryptage :
Si le sujet de la génération vidéo IA t'intéresse dans un contexte de cours IA plus large, on a décrypté les dernières annonces concurrentes : Grok Build vs Claude Code : le comparatif de mai 2026 et les licenciements Meta autour de la division IA donnent un panorama des forces en présence.
Tu veux intégrer la vidéo IA dans ta stratégie créative ? Échangeons.