2026년 5월 19일, Shoreline Amphitheater에서 열린 Google I/O 키노트에서 Demis Hassabis가 무대에 올라 AI로 영상을 만드는 모든 사람들의 이목을 집중시키는 한 문장을 말했어요: 캐릭터가 장면이 바뀌어도 얼굴, 목소리, 정체성을 유지한다는 거예요. 다시 프롬프트를 작성하지 않아도 되고, 일관성이 깨지지 않아요. 이것이 바로 새로운 Gemini Omni 패밀리의 첫 번째 모델인 Gemini Omni Flash가 약속하는 것이에요. 오늘부터 Google Flow, Gemini 앱, YouTube Shorts에서 140개국에서 사용할 수 있어요.
AI 감독들이 필요로 했던 빌딩 블록
AI 생성 영상 도구로 단편 영화를 만들어본 적 있다면 그 장벽을 알 거예요. 장면 1에서는 주인공의 눈이 갈색이에요. 장면 2에서는 금발에 파란 눈이 돼 있어요. 장면 3에서는 다른 목소리로 말해요. 지금까지 유일한 해결책은 ComfyUI에서 persona LoRA를 사용하는 번거로운 워크플로우이거나, Sora가 결국 프로덕션에서 캐릭터 잠금을 안정화하기를 기대하는 것이었어요.
Gemini Omni Flash는 이 문제를 직접 해결해요. Google 공식 블로그에 따르면:
“Omni Flash also improves character consistency, meaning identity and voice are preserved across every scene.
”
실제로는 이렇게 작동해요: 캐릭터를 한 번 만들면, 원하는 만큼 많은 장면에 "캐스팅"하고, 모델이 그 외모, 독특한 특성, 목소리를 일관되게 유지해요. AI 제작에서 카메라 일관성과 물리 시뮬레이션에 이어 스토리텔링 제작에 필요했던 핵심 요소예요.

"Create anything from anything": 모델이 실제로 할 수 있는 것
Gemini Omni 패밀리는 DeepMind 페이지에서 간결한 태그라인을 채택했어요: "Create anything from anything". 이 마케팅 슬로건 뒤에는 구체적으로 문서화된 기능들이 있어요.
I/O 2026에서 공식적으로 시연된 기능들, DeepMind 제품 페이지에서 가져온 내용이에요:
- 멀티턴 대화형 영상 편집 (처음부터 프롬프트를 재작성하지 않고 대화로 다듬기)
- 참조 자료에서 동작 및 스타일 전이
- 자연어로 캐릭터 또는 오브젝트 교체
- 카메라 앵글 조정
- 스케치에서 사실적 영상으로 변환
- 스톱 모션 및 클레이메이션
- 드로잉으로 가이드하는 포즈 전이와 모션 캡처
- 대화 보존을 통한 캐릭터 변환
- 화면 내 동작과 텍스트 동기화 (영상 모델에 역사적으로 어려운 부분)
마지막 부분에 대해 Demis Hassabis는 키노트에서 강조했어요: Gemini Omni는 "Gemini's reasoning powers with a better grasp of physics concepts such as kinetic energy and gravity"를 통합한다고 했어요.
With world models, AI is moving from predicting text to simulating reality.
이것이 Google이 몇 달 동안 발표해 온 패러다임 전환이에요: 텍스트를 예측하는 것이 아니라 물리적 세계를 모델링하는 모델. 이 프레이밍의 기술적 이름은 world model이에요. 그리고 Gemini Omni는 이 개념의 첫 번째 대중 구현이에요.
6가지 공식 프롬프트로 이해하는 모델의 가능성
Google은 DeepMind 페이지에 6개의 시연 프롬프트를 공개했어요. 어떤 설명보다 모델이 입력으로 무엇을 받을 수 있는지를 더 잘 말해줘요:
시각적 물리 효과
"When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material" - 물리 시뮬레이션 + 실시간 오브젝트 변환
운동 시뮬레이션
"A marble rolling fast on a chain reaction style track, continuous smooth shot" - 물리학 응용 + 카메라 제약 (연속 촬영)
과학적 스톱 모션
"Claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate" - 스타일과 과학적 정확성 제약을 동시에
보이스오버 익스플레이너
"A skeuomorphism stop motion explainer about how the brain hippocampus works with a compelling voiceover" - 사운드 + 이미지 + 예술 스타일 동기화
모션 전이
"Apply the pose and motion from input video to provided character from this image. Apply style from image reference to the new video" - 결합된 멀티모달 입력 (영상 + 이미지)
텍스트 렌더링
"word by word, one word on the screen at a time: did, you, know, that, this, model, can, do, pretty, good, text!?" - 영상 모델의 역사적 문제 해결
이 6가지 예시는 의도적으로 전체 스펙트럼을 커버해요: 시각적으로 스펙터클한 효과부터 교육적 사용 사례, 모션 캡처, 과학 익스플레이너까지. Google은 Omni Flash가 틈새 영화 모델이 아닌 다용도 제작 도구임을 보여줘요.


배포: Flow + Gemini + YouTube Shorts 트리오
Omni Flash의 배포 전략은 모델 자체만큼 중요해요. Google은 세 가지 서비스에서 동시 출시를 선택했어요:
Google Flow: I/O 2025에서 출시된 영상 크리에이티브 스튜디오, 이제 140개국 이상에서 사용 가능. Flow는 이제 전용 AI 에이전트와 모든 크리에이터가 자연어로 만들고 공유하고 리믹스할 수 있는 Custom Tools를 통합했어요. 이미 공개된 예시: Laszlo Gaal의 pixelBento, 코드 없이 lo-fi와 글리치 효과를 생성해요.
Gemini 앱: AI Pro와 Ultra 구독자를 위한 Omni Flash 접근이 포함된 일반 소비자 인터페이스. Flow 모바일 앱(Android 베타, iOS는 "곧 출시")도 발표됐어요.
YouTube Shorts: 짧은 형식 콘텐츠를 게시하는 크리에이터를 위한 직접 통합.
가격 인하는 비판적으로 볼 필요가 있어요. 월 250달러에서 Google AI Ultra는 스튜디오 전용 프리미엄 제품이었어요. 월 100달러에서는 Runway Pro와 경쟁력이 생기고 잠재적으로 미드티어 크리에이터 구독과도 경쟁할 수 있어요. 정기적으로 영상 콘텐츠를 제작하는 크리에이터에게는 계산이 달라져요.
안전성과 추적 가능성: SynthID + C2PA
모든 Omni Flash 출력물은 SynthID(DeepMind 기술)를 통해 감지 불가능한 워터마크가 적용되고, C2PA(Content Credentials) 메타데이터를 포함해요. C2PA는 디지털 콘텐츠 출처를 위한 오픈 표준이에요.
이것은 대부분의 AI 영상 도구에서 맹점으로 남아 있는 분야에서의 구체적인 발전이에요: 추적 가능성. 영상이 AI에 의해 생성됐는지, 그리고 누가 생성했는지 아는 것은 여러 국가(AI Act 맥락에서 유럽의회에서 진행 중인 논의 참조)에서 규제적 필요가 될 거예요. Google은 day-one부터 이 메타데이터를 내장함으로써 선제적으로 대응하고 있어요.
아직 모르는 것
DeepMind 페이지는 의도적으로 마케팅적이에요. 여러 기술적 정보가 아직 공개되지 않아서 추측하는 것은 부정확해요:
- 모델 크기, 파라미터, 레이턴시
- Sora 2, Veo 3 또는 Runway Gen-4 대비 공개 벤치마크
- 생성된 영상의 최대 길이
- 캐릭터 일관성의 정확한 기술적 메커니즘 (LoRA 유사? 지속적 잠재 임베딩? 다른 것?)
- Omni 패밀리에 약속된 이미지 및 텍스트 출력 일정
이런 공백은 day-one 발표에서는 정상이에요. 타사 벤치마크는 일반적으로 출시 후 몇 주 안에 나와요. 지금은 키노트 데모와 6개의 공식 프롬프트가 검증 가능한 유일한 성능 지표예요.
자주 묻는 질문
Gemini Omni Flash는 유료 구독 없이 사용할 수 있나요?
아니요. Gemini Omni Flash 접근에는 Google AI Pro 또는 Google AI Ultra 구독이 필요해요. I/O 2026에서 AI Ultra가 월 250달러에서 100달러로 내렸어요. 무료 접근이나 제한 티어는 현재로선 발표되지 않았어요.
Gemini Omni Flash와 Veo 3의 차이는 무엇인가요?
Veo 3는 I/O 2026 이전에 이미 Google Flow에 있었고, 고품질 영상 생성에 집중했어요. Gemini Omni Flash는 멀티모달 입력(이미지, 텍스트, 오디오, 영상 결합), 장면 간 캐릭터 일관성, 멀티턴 대화형 편집을 추가해요. 두 모델은 현재 Flow에서 공존해요. Google은 수렴 로드맵을 공개하지 않았어요.
캐릭터 일관성이 실제 얼굴에도 적용되나요?
Google은 공개 문서에서 실제 얼굴에 대한 제한 사항을 명시하지 않았어요. SynthID와 C2PA 보호는 모든 출력물에 적용돼요. EU AI Act와 Google 콘텐츠 정책도 적용돼요.
Google Flow가 한국에서도 사용 가능한가요?
네. Google Flow는 출시 시점부터 140개국 이상에서 사용 가능해요. 2026년 5월 19일 기준 Flow 페이지에는 한국이나 아시아 지역에 대한 지리적 예외가 없어요.
더 알아보기
Google I/O 2026의 전체 키노트는 Pichai와 Hassabis의 인용문을 확인하는 기본 출처예요. Gemini Omni 섹션은 약 35분경에 시작해요:
이 분석의 주요 출처:
AI 영상 생성 주제에 더 넓은 AI 맥락에서 관심이 있다면, Grok Build vs Claude Code: 2026년 5월 비교와 Meta AI 부문의 해고가 현재 경쟁 구도 전체를 조망하는 데 도움이 돼요.
AI 영상을 크리에이티브 전략에 통합하고 싶다면 이야기해요.