Gemini Omni 現已上線

Gemini Omni 影片生成器

Speak it. See it. Share it. 像聊天一樣製作影片——它是 Nano Banana 的影片版：從零開始、混搭相簿照片，或直接套用範本。

對話式生成

多模態混搭

AI 虛擬化身

支援 4 / 6 / 8 / 10 秒短片，最多 3 張參考圖融合。

開啟完整影片生成器檢視案例

核心能力

Gemini Omni 的六大核心能力

Google 官方定位：影片版的 Nano Banana——人人都能用對話生成、混搭、編輯影片。

萬物皆可創：多模態混搭

把文字、圖片、影片自由組合輸入，讓想法直接躍然畫面。一段描述 + 一張照片 + 一段參考片就能產出新作品。

vlog 靈感即時落地、社媒短影片混剪、相簿照片動態化、參考片再創作。

保留照片的靈魂

更換背景、改變穿搭、轉移風格，原圖細節原封不動。換場景但不換“神韻”。

證件照變形象大片、商品場景替換、風格化時裝片、相簿回憶重塑。

NEW

對話式編輯

用一句話告訴 Gemini 想改什麼——換角色、調整光線、穩定畫面、改背景，無需重新生成整段。

客戶反饋即時改、廣告反覆打磨、社媒內容迭代、剪輯替代式精修。

NEW

影片轉影片編輯

上傳一段現有影片作為輸入，讓 Gemini 用 AI 在原片基礎上做剪輯、改風格、換場景。

老素材二次創作、多版本風格化輸出、參考片重製、跨賬號內容再分發。

NEW

AI 虛擬化身

生成與你外貌、聲音相似的 AI 化身，省去每次上傳照片的麻煩。一次設定，反覆出鏡。

口播賬號矩陣、品牌創始人內容、海外多語言分發、教學/帶貨主播。

精選風格範本 + 原生音訊

輕觸一下就能套用 Google 精選風格範本；10 秒短片自帶原生音軌，對白與畫面同步生成。

創作新手快速上手、節日營銷批次出片、對白短片、多語言解說。

應用案例

Gemini Omni 官方示例

全部影片來自 Google Gemini 官方頁面，展示 Omni 在六大場景下的真實效果。

文字轉影片

將概念化為短片

把一段描述直接變成 10 秒短片，配音、畫面、節奏一次成型

概念落地

10s 成片

原生音訊

多模態

多模態混搭

文字 + 圖片 + 影片自由組合，讓靈感躍然畫面

混搭

文字

圖片

照片再創作

保留照片的靈魂

更換背景、改變穿搭、轉移風格，原圖細節原封不動

風格轉移

換裝

換背景

範本

精選風格範本

無需苦等靈感，輕觸一下就能套用 Google 精選風格

模板

風格

快速出片

對話編輯

對話式編輯

一句話告訴 Gemini 想改什麼——換角色、調光、穩定畫面、改背景

對話

區域性替換

迭代

虛擬化身

AI 虛擬化身

生成與你外貌、聲音相似的 AI 化身，反覆出鏡不需重新上傳

數字人

口播

矩陣賬號

技術規格

Gemini Omni 技術引數

Google 官方公佈的模型規格與使用約束。

模型代號

Gemini Omni Flash

多模態 AI 影片生成與編輯模型，將取代 Gemini app 內的 Veo 3.1

片段長度

10 秒

單次生成上限 10 秒

輸入模態

文字 + 圖片 + 影片

可混搭多達 5 張參考照片

影片轉影片編輯

支援（NEW）

上傳現有影片作為輸入，AI 直接做剪輯與改寫

多輪編輯

支援（NEW）

在已生成影片上繼續對話精修

原生音訊

內建語音生成

對白、環境聲與畫面同步生成

AI 虛擬化身

外貌 / 聲音一致（NEW）

一次設定反覆出鏡，無需每次上傳照片

SynthID 水印

所有影片內嵌

Google 隱形水印，可辨識 AI 生成內容

使用門檻

Google AI Plus / Pro / Ultra

18 歲以上、按地區開放，部分功能區域受限

升級路徑

從 Veo 3.1 到 Gemini Omni

Google 官方：Gemini Omni 將取代 Gemini app 中的 Veo。一次定位的躍遷——從“生成”升級到“生成 + 編輯”。

Veo 3.1

Gemini Omni Flash

核心定位

AI 影片生成模型

多模態生成 + 編輯模型

輸入模態

文字 / 圖片

文字 + 圖片 + 影片混搭（最多 5 張參考）

片段長度

短片

10 秒

對話式編輯

不支援

支援，多輪迭代

影片轉影片編輯

不支援

NEW，原生支援

AI 虛擬化身

不支援

NEW，外貌+聲音一致

原生音訊

支援

Gemini app 狀態

將被替換

新一代預設模型

對話式編輯

把影片生成從“抽獎”變成“工作流”

傳統影片模型一旦不滿意就要重生成，Gemini Omni 讓你像和剪輯師對話一樣精修。

兩種典型用法

首次生成

用自然語言描述完整場景，AI 一次性輸出 10 秒草稿

咖啡師在窗邊的臺子前手衝一杯咖啡，午後陽光透過百葉窗投下條紋陰影，特寫慢慢拉到她微笑的側臉。

適合初稿、靈感探索，先看到畫面再決定調整方向

對話精修

在已有影片上發起後續指令，只重渲染被改動的部分

把第 3-5 秒的濾光改成更暖的金色色調；
保持人物不變，把背景的墨綠色百葉窗換成米白色；
在結尾 2 秒加入她抬頭微笑的特寫。

節省積分、保留已經滿意的部分、迭代速度更接近真實剪輯工作流

對話編輯最佳實踐

先把整段影片生成出來再啟動對話編輯，不要在初稿沒成形時反覆打斷
一條指令只改一件事（色調、運鏡、臺詞其一），改完再下一條
用時間區間鎖定要改的範圍（例如：第 2-4 秒、結尾兩秒）
保留 task_id 與 callback，便於工程鏈路追蹤修改歷史
想換角色身份時，重新上傳參考圖，而不是用文字描述外貌

專業提示

對話指令裡包含動詞 + 物件 + 修飾（'把背景換成 X' 優於 '背景不太對'）
需要換鏡頭語言時，明確說 '改為特寫 / 中景 / 推鏡頭'
失敗任務不會扣費，遇到偶發失敗直接冪等重試即可
重要任務接入 webhook，避免長輪詢浪費請求配額

提示詞指南

Gemini Omni 提示詞最佳實踐

對話式編輯下，提示詞不再只是“一次性指令”，而是“多輪協作”的基礎。

初稿生成模板

一段約 10 秒影片：[場景]，[主體動作]，[鏡頭語言]，[光線 / 氛圍]，[原生音訊描述：環境聲 / 對白 / 音樂風格]。

為什麼有效：包含場景 + 動作 + 鏡頭 + 音訊四要素，AI 能一次性輸出可用底稿

適用場景：所有首次生成

區域性替換模板

保持人物 / 構圖 / 節奏不變，把 [元素] 替換為 [新元素]；其餘部分維持原樣。

為什麼有效：明確告訴模型哪些不變、哪些要改，避免“順便重新生成”

適用場景：替換背景、道具、文字、色調

時間區間模板

在第 [a]-[b] 秒：[要做的改動]；其他時間段保持不變。

為什麼有效：用時間錨定改動範圍，模型只重渲染對應幀

適用場景：精修開場、結尾、關鍵瞬間

參考圖 + 多鏡頭模板

參考圖為 [角色 / 商品] 的視覺錨點。生成 3 個連續鏡頭：鏡頭 1 [動作/景別]；鏡頭 2 [動作/景別]；鏡頭 3 [動作/景別]。三鏡頭中保持參考圖身份一致。

為什麼有效：參考圖鎖身份 + 顯式分鏡，結合長上下文一致性最大化效果

適用場景：劇情廣告、連續內容、IP 系列影片

常見問題

Gemini Omni 常見問題

Gemini Omni 是什麼？

Gemini Omni 是一款能夠理解世界的模型，讓你為照片注入動作，或用任何輸入生成影片。它構建在 Gemini 的世界理解和原生多模態能力之上，輸出的內容遵循真實世界的邏輯，並支援透過自然對話一步步精修。只需一條提示詞，你就能變成 AI 影片剪輯師——把任意文字 / 圖片 / 影片的組合變成影片、用最多 5 張照片做參考生成影片、輕鬆編輯已有影片。

支援哪些輸入？

文字描述、圖片（最多 5 張參考照片）、影片片段。三種模態可以自由混搭，作為生成或編輯的輸入。

可以做哪些編輯？

用對話指令更換角色、調整光線、穩定畫面、修改背景、轉移風格、改變穿搭——原圖的關鍵細節會被保留。

生成的影片多長？

單次生成上限 10 秒。可以透過新的對話指令在原片基礎上擴充套件或精修。

AI 虛擬化身是什麼？

訓練一次屬於你的 AI 化身，之後無需每次上傳照片，化身就能用你的外貌和聲音持續出鏡——適合口播賬號、品牌內容、海外分發。

生成的影片有水印嗎？

Google 在所有 Omni 生成影片中嵌入 SynthID 隱形水印，用於標識 AI 生成內容，不影響觀看體驗。

開始創作

說出想法，看見成果

Gemini Omni 讓影片創作回到對話的節奏——人人都能用一句話開始，再用一句話改完。

像聊天一樣製作影片

文字、圖片、影片自由混搭

對話式編輯，改完即看

AI 虛擬化身一次設定反覆出鏡