今日の新機能: GPT Image 2, Gemini Omni happyhorse1.0 は現在ライブ中です
提供者: Google DeepMind

Gemini Omni — AI を使用してビデオを作成および編集する

Gemini Omni は、直観的な物理学の理解、マルチモーダルな推論、および会話による編集を 1 つのモデルに結合します。写真をアップロードしたり、シーンを説明したり、参照クリップをドロップしたりすると、実際に動き、音が出て、見た目もリアルなビデオになるのを見てください。

提供者: Google DeepMind
テキスト + 画像 + 音声 + ビデオ入力
無料クレジット - クレジット カード不要

入力ビデオ

4クレジット
提供者: Google DeepMind

What Is Gemini Omni?

Gemini Omni is Google DeepMind's new multimodal AI model that creates and edits videos from any combination of inputs — text prompts, images, audio clips, and reference videos. It's where Gemini's reasoning ability meets generative media, producing videos grounded in real-world physics, history, and cultural context.

Unlike traditional AI video generators that just turn a text prompt into a clip and call it done, Gemini Omni works through natural conversation. You don't rewrite prompts — you talk to it. Change the camera angle, swap an object, add music, remix a scene. Every edit builds on the last, keeping characters and scenes consistent.

Released in May 2026, Gemini Omni Flash is the first model in the Omni family — and it's available right now in the Gemini app, Google Flow, and YouTube Shorts. Future Omni models will expand to support image and audio output alongside video.

機能

Gemini Omni の 6 つのコア機能

Gemini Omni は、マルチモーダル生成、会話型編集、現実世界の物理学、クラス最高のテキスト レンダリングを 1 つのシステムに組み合わせた初の AI ビデオ モデルです。

任意の入力からビデオを生成

テキスト、画像、オーディオ クリップ、またはリファレンス ビデオをフィードします。Gemini Omni は、あらゆる組み合わせを最大 4K 解像度のネイティブ オーディオ付きビデオに変換します。さまざまな入力タイプに個別のツールは必要ありません。

任意の入力からビデオを生成

自然な会話で編集

タイムラインやノード エディタについて学習しないでください。変更したい内容を説明してください。「車を赤くする」、「ゴールデンアワーの照明に変更する」、「背景に雨を追加する」などです。すべての指示は最後の指示に基づいて構築され、シーンの一貫性が維持されます。

自然な会話で編集

クラスをリードするテキスト レンダリング

ビデオに画面上のタイトル、キャプション、または UI モックアップが必要ですか? Gemini Omni は、業界最高の精度でテキストをレンダリングします。鮮明で読みやすく、画面上のアクションと同期します。 AI テキストの文字化けはもうありません。

クラスをリードするテキスト レンダリング

現実世界の物理学と世界の知識

物体は自然に落下、跳ね返り、衝突します。シーンでは、歴史的な正確さ、科学的原則、文化的背景が尊重されます。 Gemini Omni は、Gemini の膨大な知識を活用して、視覚的なパターンだけでなく、ビデオを現実に基づいて作成します。

現実世界の物理学と世界の知識

一貫したキャラクター、シーン、マルチターン編集

キャラクターの顔、服装、シーンの背景は、編集を複数回行っても一貫性が保たれます。 「AI がショットの間に私のキャラクターがどのように見えたかを忘れてしまう」ということはもうありません。

一貫したキャラクター、シーン、マルチターン編集

クラス最高の音声とネイティブ オーディオ

ビデオには同期された音声が付属します。バックグラウンド ミュージック、ナレーション、サウンド エフェクトはネイティブに生成されるため、オーディオ ツールにエクスポートして再同期する必要はありません。

クラス最高の音声とネイティブ オーディオ
使い方

3 ステップで最初のビデオを作成

Gemini Omni の使用方法を 3 つの簡単な手順で学びます。テキスト、画像、音声、ビデオなどの入力から始めて、自然な会話を通じて改善していきます。

01
1

何でも始めましょう

あなたのアイデアを一文で説明してください。または、写真、ラフスケッチ、オーディオクリップ、または参考ビデオをアップロードします。 Gemini Omni はテキスト、画像、オーディオ、ビデオを受け入れます。好きなように組み合わせてください。 1 分以内にプレビュー レンダリングが表示されます。

02
2

チャットで直接

プロンプトを書き換えるのではなく、言いたいことだけを言ってください。 「昼ではなく夜にしましょう。」 「音楽をもっとエネルギッシュなものに変えてください。」 「冒頭にタイトルカードを追加します。」すべての編集は前の編集に重ねられ、ビデオの一貫性が保たれます。

03
3

生成、リミックス、エクスポート

あなたのビデオに満足していますか?同期されたオーディオとともに最大 4K までエクスポートします。別の方向性を試してみませんか?スタイルを交換したり、アクションを変更したり、新しいキャラクターを追加したりするなど、どのステップからでもリミックスできます。必要な数のバージョンをエクスポートします。

使用例

Gemini Omni は誰のためのものですか?

コンテンツ クリエーターからプロダクト デザイナーまで、Gemini Omni は 1 回限りのクリップではなく、実際のクリエイティブなワークフローに適合します。

YouTube および TikTok クリエイター

1 つのアイデアを複数の短編ビデオ (縦、横、さまざまなカット) に変換します。実際に正しくレンダリングされる画面上のテキストを追加します。再撮影することなく、最高のパフォーマンスのクリップを新しいバリエーションにリミックスします。

マーケティング担当者と広告チーム

製品の写真と概要から製品デモ、ソーシャル広告、説明ビデオを生成します。背景の交換、ブランドの追加、テキスト オーバーレイのレンダリングをすべて 1 つのチャット セッションで行います。代理店を待つよりも早く発送します。

教育者およびオンライン コース作成者

実際の科学、歴史、数学に基づいた視覚的に正確な説明ビデオを作成します。 Gemini Omni の世界知識は、あなたのアニメーションが視覚的なパターンだけでなく事実を尊重することを意味します。画面上に数式、ラベル、図を追加して、明確にレンダリングします。

映画制作者と絵コンテアーティスト

シーンのコンセプトを数日ではなく数分でテストします。ストーリーボードのスケッチをアップロードし、アクションを説明し、会話を通じて調整できる動きのあるプリビズを取得します。実際の場所、特定の照明、カメラの動きを参照します。

プロダクト デザイナーと UI/UX チーム

読みやすいテキストを含むアプリのウォークスルーと UI デモを生成します。 Gemini Omni のテキスト レンダリングはクラス最高です。モックアップは AI で汚された近似ではなく、実際の画面のように見えます。

選ぶ理由

他の AI ビデオ ツールではなく Gemini Omni を選ぶ理由

推論、マルチモーダル入力、会話編集、テキスト レンダリングを 1 つのシステムで組み合わせた AI ビデオ モデルは他にありません。

会話型編集 — 編集者のように話しましょう

タイムラインを学習したり、プロンプトを書き直したりしないでください。編集者と話しているように、変更してほしい内容を伝えるだけです。すべてのリビジョンは最後に一貫してスタックされ、ターン全体でキャラクターとシーンの一貫性が保たれます。

ゼロからのマルチモーダル

テキスト、写真、スケッチ、オーディオ、またはリファレンス クリップを任意の組み合わせでフィードします。他のツールでは、テキストのみのプロンプトにロックされてしまいます。 Gemini Omni は、あらゆる入力タイプをネイティブに受け入れて理解します。

現実世界の物理学と知識

あなたの解説ビデオは実際の科学と歴史を尊重しています。製品デモは実際の物体のように動きます。物体の落下、跳ね返り、相互作用に「AI の奇妙さ」はありません。Gemini Omni の推論エンジンは、すべてのフレームを現実に基づいています。

クラスをリードするテキスト レンダリング

画面上のタイトル、ラベル、UI テキストは鮮明で読みやすいままです。広告、チュートリアル、アプリのデモの場合、これだけでも切り替える理由になります。 AI テキストが文字化けして完璧なショットを台無しにすることはもうありません。

Google DeepMind エコシステム

Gemini、Veo、Imagen の背後にあるチームによって構築されました。 YouTube Shorts、Google Flow、および Gemini アプリと統合されています。あなたは、SynthID 透かしと C2PA コンテンツ認証情報が組み込まれた、数十億人に出荷されるインフラストラクチャ上に構築しています。

価格

最適なプランをお選びください

スターター

$9.9/月

初心者レベルの経験、参入障壁が低い


  • 月あたり 60 クレジット (約 20 本のビデオ)
  • 月次/年払いオプション、いつでもキャンセル可能
  • 初心者や軽い使用に最適
  • いつでもビデオ生成履歴を表示および管理できます
  • 商用利用
  • 年中無休のカスタマー サポート
    人気

    プロ

    $23.9/月

    主な推奨バージョン、コストパフォーマンスが最高


    • 月あたり 150 クレジット (約 50 本のビデオ)
    • 月払い/年払いオプション、いつでもキャンセル可能
    • 個人クリエイターや小規模チームにとって最良の価値のある選択肢
    • いつでもビデオ生成履歴を表示および管理できます
    • 商用利用
    • 年中無休のカスタマー サポート

      スタジオ

      $39.9/月

      高周波クリエイター向けプロフェッショナル版


      • 月あたり 270 クレジット (約 90 本のビデオ)
      • 月払い/年払いオプション、いつでもキャンセル可能
      • プロのクリエイターや高周波生成に最適
      • いつでもビデオ生成履歴を表示および管理できます
      • 商用利用
      • 年中無休のカスタマー サポート
        トップアップ

        さらにクレジットが必要ですか?

        1 回限りの購入。いつでもクレジットを追加できます - あらゆるプランと併用できます。

        1 回限りのチャージ
        $9.9
        60 クレジット
        30 日間有効
        追加のビデオ生成の準備ができました
        あらゆるサブスクリプション プランで動作します
        よくある質問

        Gemini Omni に関するよくある質問

        Gemini Omni とは何ですか?
        Gemini Omni は、テキスト、画像、オーディオ、ビデオ入力からビデオを作成および編集する Google DeepMind のマルチモーダル AI モデルです。 2026 年 5 月にリリースされたこのツールは、Gemini の推論エンジンに基づいて構築されています。これは、視覚的なパターンだけでなく、物理学、歴史、コンテキストを理解することを意味します。
        Gemini Omni は無料ですか?いくらかかりますか?
        はい — サインアップすると、無料のクレジットを取得してすぐに作成を開始できます。クレジットカードは必要ありません。試用版クレジットを使用したら、追加のクレジット パッケージを購入して生成し続けることができます。サブスクリプションはなく、使用した分だけ支払います。
        Gemini Omni は Veo とどう違うのですか?
        Veo は、高忠実度のテキストからビデオへの生成に焦点を当てた、Google の特殊な映画ビデオ モデルです。 Gemini Omni はさらに進化しており、マルチモーダル入力 (画像、音声、ビデオ)、会話型マルチターン編集、現実世界の物理学の理解、およびクラスをリードするテキスト レンダリングを追加します。 Gemini Omni は、Veo のビジュアル品質と Gemini の推論能力を組み合わせた次世代のものであると考えてください。
        Gemini Omni を始めるにはどうすればよいですか?
        無料でサインアップしてください。順番待ちリストなしですぐにクレジットを取得できます。ログインしたら、プロンプトを入力するか、参照画像をアップロードするか、テンプレートを選択します。最初のビデオは数分でレンダリングされます。ダウンロードやインストールは必要ありません。すべてがブラウザーで実行されます。
        Gemini Omni を Sora 2 および Seedance 2 と比較するとどうですか?
        Gemini Omni の主な利点は、会話型編集です。プロンプトを最初から書き直すのではなく、チャットを通じて調整します。また、画面上のテキスト レンダリングの精度も向上し、歴史的および科学的に正確な出力に関する Gemini の世界知識の恩恵を受けます。 Sora 2 と Seedance 2 は強力なテキストからビデオへのモデルですが、Omni の統合されたマルチモーダル入力と会話型ワークフローが欠けています。
        Gemini Omni は会話を通じてビデオを編集できますか?
        はい — これはそのコア機能の 1 つです。カメラ アングルの変更、オブジェクトの交換、アクションのリミックス、キャラクターの追加、シーン全体の変換など、すべて必要なことを自然言語で説明することで行うことができます。各編集は以前の内容を記憶しているため、ビデオはどのターンでも一貫性が保たれます。
        Gemini Omni ビデオの長さはどれくらいですか?オーディオをサポートしていますか?
        はい、Gemini Omni はバックグラウンド ミュージック、ナレーション、効果音など、ネイティブに同期されたオーディオを含むビデオを生成します。ビデオの長さは解像度によって異なります。720p で最大 10 秒、1080p で 8 秒、4K で 4 秒です。
        Gemini Omni フラッシュとは何ですか?
        Gemini Omni Flash は、2026 年 5 月にリリースされた Omni ファミリの最初のモデルです。これは、Gemini アプリ、Google Flow、および YouTube Shorts で現在利用可能なバージョンです。将来の Omni モデルは、画像や音声を含む追加の出力モダリティをサポートする予定です。
        Gemini Omni には API がありますか?
        Google は、開発者と企業の API アクセスが計画されていると発表しましたが、まだ一般利用可能ではありません。 API がリリースされたら、このページを更新します。
        Gemini Omni ビデオには透かしが入っていますか?
        はい。 Gemini Omni は、Google DeepMind の SynthID テクノロジを使用して目に見えない透かしを埋め込み、C2PA コンテンツ認証情報をサポートしているため、視聴者はビデオの AI の出所を確認できます。これにより、クリエイターと視聴者の両方が保護されます。
        Gemini Omni の制限は何ですか?
        Gemini Omni は大きな進歩ですが、Google のモデル カードは、複雑なマルチターン編集を通じて完全な一貫性を維持すること、非常に複雑なモーションを含むシーンを生成すること、あらゆる場合に完全に正確なテキストをレンダリングすることは依然として大きな課題であることを認めています。特に運用環境での使用については、出力を確認することをお勧めします。
        Gemini Omni は誰に当てはまりますか?
        コンテンツ クリエーター、マーケティング担当者、教育者、映画製作者、プロダクト デザイナー。アイデアをビデオに変換する必要がある場合、最初から作成するか、既存のアセットをリミックスするかにかかわらず、Gemini Omni が作成されます。
        作成を開始

        Gemini Omni をお試しください — 無料クレジット、キャンセル待ちリストなし

        現実世界を理解する AI を使用して、テキスト、画像、音声、ビデオを制作可能なビデオに変換します。サインアップ時に無料クレジットが付与され、クレジット カードは必要ありません。