Gemini Omni が公開されました

Gemini Omni 動画生成

話すだけで映像化して共有できます。チャット感覚で動画を作成できます。ゼロから作る、写真を組み合わせる、またはテンプレートを使えます。

対話生成
モード混合
AIアバター

4/6/8/10秒に対応、参考画像は最大3枚まで融合できます。

コア機能

Gemini Omni の6つのコア機能

Google公式の説明:映像版Nano Banana—対話で誰でも動画を生成・組み合わせ・編集できます。

何でも作れる:マルチモーダル混合

文字・画像・動画を自由に組み合わせて、アイデアをそのまま映像化できます。説明1つ+写真1枚+参考動画1本で新作を作れます。

vlogのアイデアを即時に形に、SNS短尺動画のミックス、アルバム写真の動的化、参考動画の再創作。

写真の雰囲気を残す

背景変更、服装変更、スタイル移行しても、元の細部はそのまま残ります。場面は変わっても雰囲気は維持します。

証明写真がイメージ写真に、商品シーンの差し替え、スタイライズしたファッション動画、アルバムの思い出を再構成。

NEW

対話式編集

一言でGeminiに直したい点を伝えれば、キャラ変更、光の調整、手ブレ補正、背景変更などを部分的に修正できます。全体を再生成する必要はありません。

顧客フィードバックに即対応、広告を繰り返し磨く、SNSコンテンツの改良、編集での精密修正の代替。

NEW

動画編集

既存動画をアップロードすると、Gemini がAIで編集、スタイル変更、シーン差し替えを行います。

既存素材の二次創作、複数版のスタイル出力、参考動画のリマスター、別アカウントでの再配信。

NEW

AIアバター

見た目や声が似たAIアバターを生成し、毎回の写真アップを省きます。一度設定すれば、繰り返し使えます。

音声アカウントの複数運用、ブランド創業者コンテンツ、海外多言語配信、教育/販売の配信者。

厳選テンプレ+原音声

ワンタップでGoogleの厳選テンプレを適用できます。10 秒の短編は原音声付きで、セリフと映像が同期生成されます。

初心者の早期習得、祝日マーケの一括制作、セリフ短編、多言語ナレーション。

活用事例

Gemini Omni 公式サンプル

すべての動画はGoogle Geminiの公式ページのもので、Omniが6つのシーンで見せる実際の効果を紹介しています。

文字→動画

コンセプトを短編化

説明をそのまま10秒の短編にします。ナレーション、映像、リズムを一度で整えます。

概念落地
10s 成片
原生音频
多モーダル

マルチモーダル混合

テキスト+画像+動画を自由に組み合わせて、アイデアを映像で表現します。

混搭
文字
图片
写真再創作

写真の魂を残します

背景や服装、スタイルを変えても、元の細部はそのまま残します。

风格转移
换装
换背景
テンプレ

厳選テンプレ

ひらめきを待つ必要はなく、ワンタップでGoogleの厳選スタイルを適用できます。

模板
风格
快速出片
対話編集

対話式編集

一言でGeminiに変更を伝えます—役替え、明るさ調整、手ブレ補正、背景変更が可能です。

对话
局部替换
迭代
AIアバター

AIアバター

外見や声が似たAIアバターを生成し、繰り返し出演しても再アップロードは不要です。

数字人
口播
矩阵账号
技術仕様

Gemini Omni 技術仕様

Google が公表したモデル仕様と利用制限です。

モデル名
Gemini Omni Flash
マルチモーダルAIの動画生成・編集モデルで、Geminiアプリ内のVeo 3.1に代わります。
クリップ長
10 秒
1回の生成は最大 10 秒です。
入力モード
テキスト + 画像 + 動画
参考写真を最大5枚混ぜて使えます
動画編集
対応(NEW)
既存動画を入力すると、AIが直接編集・書き換えます
複数回編集
対応(NEW)
生成済み動画を対話でさらに微調整できます
原音声
内蔵音声生成
セリフと環境音を映像と同期して生成します
AIアバター
見た目・声一致(NEW)
一度設定すれば繰り返し使え、毎回写真は不要です
SynthID透かし
すべての動画に埋め込まれます
Googleの不可視透かしでAI生成を判別できます
利用条件
Google AI Plus / Pro / Ultra
18歳以上、地域別に提供、一部機能は地域で制限されます
アップグレード

Veo 3.1 から Gemini Omni へ

Google公式:Gemini Omni は Gemini アプリ内の Veo に取って代わります。『生成』から『生成+編集』への躍進です。

Veo 3.1
Gemini Omni Flash
主な役割
AI動画生成モデル
マルチモーダル生成+編集モデル
入力モード
テキスト/画像
テキスト+画像+動画(参考は最大5点)
クリップ長
短編
10秒
対話式編集
非対応です
対応し、複数回のやり取りができます
動画→動画編集
非対応です
新機能、ネイティブ対応です
AIアバター
非対応です
NEW、外見と音声が一致します
原音
対応しています
対応しています
Geminiアプリの状態
置き換えられます
次世代のデフォルトモデルです
対話式編集

動画生成を“運任せ”から“ワークフロー”にします

従来は不満なら再生成が必要でしたが、Gemini Omniは編集者と対話するように細かく修正できます。

主な2つの使い方

初回生成

自然な言葉で場面を説明すると、AIが一度に10秒の草案を出します。

バリスタが窓辺でハンドドリップのコーヒーを淹れ、午後の光がブラインド越しに縞模様の影を落とします。特写がゆっくり彼女の微笑む横顔に寄ります。

初稿やアイデア探索に適しています。まず映像を見て方針を決めます。

対話で修正

既存の動画に続けて指示を出し、変更した部分だけを再レンダリングします。

3〜5秒のフィルターをより暖かい金色トーンに変更します; 人物はそのままに背景の濃緑のブラインドをアイボリーに変えます; 最後の2秒に彼女が見上げて微笑む特写を追加します。

ポイントを節約し、満足部分を保持します。反復速度が実際の編集ワークフローに近づきます。

対話編集のベストプラクティス

  • まず動画全体を生成してから対話編集を開始してください。初稿が固まらないうちに何度も中断しないでください。
  • 一つの指示で一点だけ変更してください(色調、カメラワーク、台詞のいずれか)。終えたら次の指示を出してください。
  • 時間区間で変更範囲を指定してください(例:2~4秒、ラスト2秒)。
  • task_id と callback を残してください。変更履歴の追跡に便利です。
  • 役柄を変える場合は、外見を文字で説明せず参考画像を再アップロードしてください。

プロ向けのヒント

  • 指示には動詞+対象+修飾を含めてください(「背景をXに変える」の方が「背景が違う」より良いです)。
  • カメラ表現を変える場合は、『クローズアップ/中景/プッシュイン』と明確に指示してください。
  • 失敗したタスクは課金されません。偶発的な失敗は再試行してください。
  • 重要なタスクはWebhookを導入してください。長いポーリングでリクエスト枠を浪費しないでください。
プロンプトガイド

Gemini Omni プロンプトのベストプラクティス

対話式編集では、プロンプトは単なる「一度きりの指示」ではなく、「複数回の協働」の基礎です。

初稿テンプレート

約10秒の動画:[場面]、[主体の動き]、[カット表現]、[光/雰囲気]、[原音の説明:環境音/セリフ/音楽の雰囲気]。

なぜ有効か:場面+動き+カット+音声の4要素を含むため、AIが一度で使える下書きを出せます。

適用場面:初回生成全般です。

部分差し替えテンプレート

人物/構図/リズムを変えず、[元素]を[新元素]に差し替えてください。他はそのままにします。

なぜ有効か:モデルに何を保持し何を変えるかを明確に伝え、「ついでの再生成」を防ぎます。

適用場面:背景・小道具・文字・色調の差し替えです。

時間区間テンプレート

第[a]-[b]秒に:[変更内容];その他の時間はそのままにします。

なぜ有効か:時間で変更範囲を指定することで、モデルは該当フレームのみを再レンダリングします。

適用場面:オープニング、エンディング、重要な瞬間の修正です。

参照画像+複数カットテンプレ

参照画像は[角色/商品]の視覚的アンカーです。連続するカットを3つ生成:カット1 [動作/画角];カット2 [動作/画角];カット3 [動作/画角]。3カットで参照画像の同一性を保ってください。

なぜ有効か:参照画像で同一性を固定し、明示的な絵コンテを使うことで、長い文脈でも一貫性が高まります。

適用場面:ドラマ仕立ての広告、連続コンテンツ、IPシリーズ動画です。

よくある質問

Gemini Omni のよくある質問

Gemini Omni とは何ですか?

Gemini Omni は世界を理解するモデルで、写真に動きを付けたり任意の入力から動画を生成できます。Gemini の世界理解とマルチモーダル能力を基盤にしており、出力は現実の論理に従います。自然な対話で段階的に微調整できます。1つのプロンプトで任意のテキスト・画像・動画の組合せを動画にしたり、最大5枚の写真を参考に動画を生成したり、既存の動画を簡単に編集できます。

どんな入力に対応しますか?

テキスト、画像(参考は最大5枚)、動画クリップに対応します。3つのモーダルを自由に組み合わせて生成や編集に使えます。

どんな編集ができますか?

対話で指示して、人物の変更、光の調整、手ブレ補正、背景差替え、スタイル変更、服装変更ができます。元の重要なディテールは保持されます。

生成される動画はどのくらいの長さですか?

1回の生成は最大10秒です。対話で追加や微調整を行い、元の映像を拡張できます。

AI 虚拟化身是什么?

一度トレーニングしたあなた専用のAIアバターは、毎回写真をアップロードしなくても外見と声で継続して出演できます。音声配信やブランド動画、海外配信に適しています。

生成動画に透かしは付きますか?

Google はすべての Omni 生成動画に SynthID の不可視透かしを埋め込み、AI生成コンテンツを識別します。視聴には影響しません。

生成開始

思いを話すだけで、成果が出ます

Gemini Omni は動画生成を対話のリズムに戻します。誰でも一言で始め、一言で修正できます。

会話で動画生成
文字・画像・動画を自由に組み合わせます
対話式編集で、編集後すぐ確認できます
AIのバーチャルアバターは一度設定すれば何度でも使えます
Gemini Omni:Google の対話型動画生成モデル | CreatOK | CreatOK