Mới hôm nay: GPT Image 2, Gemini Omni happyhorse1.0 hiện đang hoạt động
Được cung cấp bởi Google DeepMind

Gemini Omni — Tạo và chỉnh sửa video bằng AI

Gemini Omni kết hợp sự hiểu biết vật lý trực quan, lý luận đa phương thức và chỉnh sửa hội thoại vào một mô hình. Tải ảnh lên, mô tả cảnh hoặc thả clip tham khảo — và xem video đó trở thành video chuyển động, có âm thanh và trông như thật.

Được cung cấp bởi Google DeepMind
Văn bản + Hình ảnh + Âm thanh + Đầu vào video
Tín dụng miễn phí — Không có thẻ tín dụng

Đầu vào video

4tín dụng
Được cung cấp bởi Google DeepMind

What Is Gemini Omni?

Gemini Omni is Google DeepMind's new multimodal AI model that creates and edits videos from any combination of inputs — text prompts, images, audio clips, and reference videos. It's where Gemini's reasoning ability meets generative media, producing videos grounded in real-world physics, history, and cultural context.

Unlike traditional AI video generators that just turn a text prompt into a clip and call it done, Gemini Omni works through natural conversation. You don't rewrite prompts — you talk to it. Change the camera angle, swap an object, add music, remix a scene. Every edit builds on the last, keeping characters and scenes consistent.

Released in May 2026, Gemini Omni Flash is the first model in the Omni family — and it's available right now in the Gemini app, Google Flow, and YouTube Shorts. Future Omni models will expand to support image and audio output alongside video.

Khả năng

6 Khả năng cốt lõi của Gemini Omni

Gemini Omni là mô hình video AI đầu tiên kết hợp việc tạo đa phương thức, chỉnh sửa hội thoại, vật lý trong thế giới thực và kết xuất văn bản hàng đầu trong một hệ thống.

Tạo video từ bất kỳ đầu vào nào

Cung cấp văn bản, hình ảnh, clip âm thanh hoặc video tham chiếu — Gemini Omni biến bất kỳ sự kết hợp nào thành video có âm thanh gốc, độ phân giải lên tới 4K. Không cần công cụ riêng biệt cho các loại đầu vào khác nhau.

Tạo video từ bất kỳ đầu vào nào

Chỉnh sửa thông qua cuộc trò chuyện tự nhiên

Đừng tìm hiểu dòng thời gian hoặc trình chỉnh sửa nút. Chỉ cần mô tả những gì bạn muốn thay đổi — "làm cho ô tô có màu đỏ", "chuyển sang ánh sáng giờ vàng", "thêm mưa vào nền". Mọi hướng dẫn đều được xây dựng dựa trên hướng dẫn cuối cùng, duy trì tính nhất quán của cảnh.

Chỉnh sửa thông qua cuộc trò chuyện tự nhiên

Kết xuất văn bản hàng đầu

Bạn cần tiêu đề, chú thích trên màn hình hoặc mô hình giao diện người dùng trong video của mình? Gemini Omni hiển thị văn bản với độ chính xác cao nhất trong ngành — sắc nét, dễ đọc và được đồng bộ hóa với hành động trên màn hình. Không còn văn bản AI bị cắt xén nữa.

Kết xuất văn bản hàng đầu

Vật lý trong thế giới thực và kiến thức thế giới

Các vật thể rơi, nảy và va chạm một cách tự nhiên. Cảnh tôn trọng tính chính xác lịch sử, nguyên tắc khoa học và bối cảnh văn hóa. Gemini Omni dựa trên kiến ​​thức sâu rộng của Gemini để biến video của bạn thành hiện thực — không chỉ là các mẫu hình ảnh.

Vật lý trong thế giới thực và kiến thức thế giới

Nhân vật, cảnh và chỉnh sửa nhiều lượt nhất quán

Khuôn mặt, quần áo và bối cảnh của nhân vật của bạn luôn nhất quán qua nhiều vòng chỉnh sửa. Không còn "AI quên mất nhân vật của tôi trông như thế nào giữa các cảnh quay."

Nhân vật, cảnh và chỉnh sửa nhiều lượt nhất quán

Giọng nói và âm thanh gốc tốt nhất

Video có âm thanh được đồng bộ hóa. Nhạc nền, lồng tiếng và hiệu ứng âm thanh được tạo nguyên bản — không cần xuất sang công cụ âm thanh và đồng bộ hóa lại.

Giọng nói và âm thanh gốc tốt nhất
Cách sử dụng

Tạo video đầu tiên của bạn trong 3 bước

Tìm hiểu cách sử dụng Gemini Omni trong ba bước đơn giản. Bắt đầu từ bất kỳ đầu vào nào — văn bản, hình ảnh, âm thanh hoặc video — và tinh chỉnh thông qua cuộc trò chuyện tự nhiên.

01
1

Bắt đầu từ bất cứ điều gì

Hãy mô tả ý tưởng của bạn bằng một câu. Hoặc tải lên ảnh, bản phác thảo thô, clip âm thanh hoặc video tham khảo. Gemini Omni chấp nhận văn bản, hình ảnh, âm thanh và video — trộn và kết hợp theo cách bạn muốn. Bạn sẽ thấy bản xem trước hiển thị sau chưa đầy một phút.

02
2

Trực tiếp trong Trò chuyện

Đừng viết lại lời nhắc của bạn — chỉ cần nói những gì bạn muốn. "Làm đêm thay vì ngày." "Đổi nhạc sang thứ gì đó mạnh mẽ hơn." "Thêm thẻ tiêu đề vào đầu." Mọi chỉnh sửa đều chồng lên chỉnh sửa trước đó, giúp video của bạn luôn mạch lạc.

03
3

Tạo, phối lại và xuất

Bạn hài lòng với video của mình? Xuất tối đa 4K với âm thanh được đồng bộ hóa. Bạn muốn thử một hướng khác? Phối lại từ bất kỳ bước nào — hoán đổi kiểu, thay đổi hành động, thêm ký tự mới. Xuất bao nhiêu phiên bản tùy thích.

Các trường hợp sử dụng

Gemini Omni dành cho ai?

Từ người sáng tạo nội dung đến nhà thiết kế sản phẩm, Gemini Omni đều phù hợp với quy trình làm việc sáng tạo thực sự — không chỉ là các clip dùng một lần.

Người sáng tạo trên YouTube và TikTok

Biến một ý tưởng thành nhiều video dạng ngắn — các đoạn cắt dọc, ngang, khác nhau. Thêm văn bản trên màn hình thực sự hiển thị chính xác. Phối lại các clip hoạt động tốt nhất của bạn thành các biến thể mới mà không cần quay lại bất cứ thứ gì.

Nhà tiếp thị & Nhóm quảng cáo

Tạo bản demo sản phẩm, quảng cáo trên mạng xã hội và video giải thích từ ảnh sản phẩm và bản tóm tắt. Hoán đổi hình nền, thêm thương hiệu và hiển thị lớp phủ văn bản - tất cả trong một phiên trò chuyện. Vận chuyển nhanh hơn chờ đại lý.

Nhà giáo dục & Người tạo khóa học trực tuyến

Tạo video giải thích trực quan chính xác dựa trên khoa học, lịch sử và toán học thực tế. Kiến thức thế giới của Gemini Omni có nghĩa là hoạt ảnh của bạn tôn trọng sự thật — không chỉ các mẫu hình trực quan. Thêm các phương trình, nhãn và sơ đồ trên màn hình để hiển thị rõ ràng.

Nhà làm phim & Nghệ sĩ viết kịch bản

Thử nghiệm ý tưởng cảnh trong vài phút thay vì vài ngày. Tải lên bản phác thảo bảng phân cảnh, mô tả hành động và nhận được thông tin cảm động mà bạn có thể tinh chỉnh thông qua cuộc trò chuyện. Tham khảo địa điểm thực, ánh sáng cụ thể và chuyển động của camera.

Nhà thiết kế sản phẩm & Nhóm UI/UX

Tạo hướng dẫn sử dụng ứng dụng và bản demo giao diện người dùng bằng văn bản dễ đọc. Khả năng hiển thị văn bản của Gemini Omni thuộc hàng đầu — mô hình của bạn trông giống như màn hình thực chứ không phải các hình ảnh gần đúng bị nhòe do AI làm mờ.

Tại sao chọn

Tại sao chọn Gemini Omni thay vì các công cụ video AI khác

Không có mô hình video AI nào khác kết hợp lý luận, đầu vào đa phương thức, chỉnh sửa hội thoại và hiển thị văn bản trong một hệ thống.

Chỉnh sửa hội thoại - Nói chuyện với nó như một biên tập viên

Đừng tìm hiểu dòng thời gian hoặc viết lại lời nhắc. Chỉ cần nói những gì bạn muốn thay đổi — giống như bạn đang nói chuyện với biên tập viên. Mọi bản sửa đổi đều xếp chồng lên nhau một cách mạch lạc ở phần cuối cùng, giữ cho các ký tự và cảnh nhất quán trong các lượt.

Đa phương thức từ đầu

Cung cấp cho nó văn bản, ảnh, bản phác thảo, âm thanh hoặc clip tham khảo — theo bất kỳ cách kết hợp nào. Các công cụ khác buộc bạn phải đưa ra lời nhắc chỉ bằng văn bản. Gemini Omni chấp nhận và hiểu rõ ràng mọi loại đầu vào.

Vật lý và kiến thức trong thế giới thực

Video giải thích của bạn tôn trọng khoa học và lịch sử thực tế. Bản demo sản phẩm của bạn di chuyển giống như vật thật. Không có "sự kỳ lạ của AI" trong cách mọi thứ rơi, nảy hoặc tương tác - công cụ lý luận của Gemini Omni căn cứ mọi khung hình trong thực tế.

Kết xuất văn bản hàng đầu

Tiêu đề, nhãn và văn bản giao diện người dùng trên màn hình luôn sắc nét và dễ đọc. Đối với quảng cáo, hướng dẫn và demo ứng dụng, chỉ riêng điều này đã là lý do để chuyển đổi. Không còn văn bản AI bị cắt xén làm hỏng một bức ảnh lẽ ra hoàn hảo.

Google DeepMind Hệ sinh thái

Được xây dựng bởi nhóm đằng sau Gemini, Veo và Imagen. Được tích hợp với YouTube Shorts, Google Flow và ứng dụng Gemini. Bạn đang xây dựng trên cơ sở hạ tầng có quy mô lên tới hàng tỷ người — với SynthID hình mờ và thông tin xác thực nội dung C2PA được tích hợp sẵn.

Giá cả

Hãy chọn gói phù hợp nhất với bạn

Người khởi xướng

9,9 US$/tháng

Kinh nghiệm ở cấp độ đầu vào, rào cản gia nhập thấp


  • 60 tín chỉ mỗi tháng (khoảng 20 video)
  • Tùy chọn thanh toán hàng tháng/hàng năm, hủy bất cứ lúc nào
  • Hoàn hảo cho người mới bắt đầu và sử dụng nhẹ nhàng
  • Xem và quản lý lịch sử tạo video của bạn bất cứ lúc nào
  • Sử dụng thương mại
  • Hỗ trợ khách hàng 24/7
    Phổ biến

    Chuyên nghiệp

    23,9 US$/tháng

    Phiên bản chính được đề xuất, đáng giá tiền nhất


    • 150 tín chỉ mỗi tháng (khoảng 50 video)
    • Tùy chọn thanh toán hàng tháng/hàng năm, hủy bất cứ lúc nào
    • Sự lựa chọn có giá trị tốt nhất cho người sáng tạo cá nhân và nhóm nhỏ
    • Xem và quản lý lịch sử tạo video của bạn bất cứ lúc nào
    • Sử dụng thương mại
    • Hỗ trợ khách hàng 24/7

      Studio

      39,9 US$/tháng

      Phiên bản chuyên nghiệp dành cho người sáng tạo tần suất cao


      • 270 tín chỉ mỗi tháng (khoảng 90 video)
      • Tùy chọn thanh toán hàng tháng/hàng năm, hủy bất cứ lúc nào
      • Hoàn hảo cho người sáng tạo chuyên nghiệp và tạo tần số cao
      • Xem và quản lý lịch sử tạo video của bạn bất cứ lúc nào
      • Sử dụng thương mại
      • Hỗ trợ khách hàng 24/7
        NẠP TIỀN

        Cần thêm tín dụng?

        Mua một lần. Thêm tín dụng bất cứ lúc nào - hoạt động cùng với mọi gói.

        Nạp tiền một lần
        9,9 US$
        60 tín dụng
        Có hiệu lực trong 30 ngày
        Sẵn sàng cho nhiều thế hệ video bổ sung
        Hoạt động với mọi gói đăng ký
        Câu hỏi thường gặp

        Câu hỏi thường gặp về Gemini Omni

        Gemini Omni là gì?
        Gemini Omni là mô hình AI đa phương thức của Google DeepMind tạo và chỉnh sửa video từ đầu vào văn bản, hình ảnh, âm thanh và video. Được phát hành vào tháng 5 năm 2026, nó được xây dựng trên công cụ lý luận của Gemini — có nghĩa là nó hiểu vật lý, lịch sử và bối cảnh chứ không chỉ các mẫu hình ảnh.
        Gemini Omni có miễn phí không? Nó có giá bao nhiêu?
        Có — đăng ký và bạn sẽ nhận được tín dụng miễn phí để bắt đầu tạo ngay lập tức. Không cần thẻ tín dụng. Sau khi sử dụng tín dụng dùng thử, bạn có thể mua các gói tín dụng bổ sung để tiếp tục tạo. Không cần đăng ký, chỉ trả tiền cho những gì bạn sử dụng.
        Gemini Omni khác Veo như thế nào?
        Veo là mô hình video điện ảnh chuyên dụng của Google tập trung vào việc tạo văn bản thành video có độ chân thực cao. Gemini Omni còn tiến xa hơn nữa — nó bổ sung thêm đầu vào đa phương thức (hình ảnh, âm thanh, video), chỉnh sửa đàm thoại nhiều lượt, hiểu biết vật lý trong thế giới thực và hiển thị văn bản hàng đầu. Hãy coi Gemini Omni là thế hệ tiếp theo kết hợp chất lượng hình ảnh của Veo với khả năng suy luận của Song Tử.
        Làm cách nào để bắt đầu với Gemini Omni?
        Đăng ký miễn phí — bạn sẽ nhận được tín dụng ngay lập tức mà không cần danh sách chờ. Sau khi đăng nhập, hãy nhập lời nhắc, tải lên hình ảnh tham chiếu hoặc chọn mẫu. Video đầu tiên của bạn hiển thị sau vài phút. Không cần tải xuống hoặc cài đặt — mọi thứ đều chạy trong trình duyệt của bạn.
        Gemini Omni so sánh với Sora 2 và Seedance 2 như thế nào? Ưu điểm chính của
        Gemini Omni là chỉnh sửa cuộc hội thoại — bạn tinh chỉnh thông qua trò chuyện chứ không phải bằng cách viết lại lời nhắc từ đầu. Nó cũng dẫn đầu về độ chính xác khi hiển thị văn bản trên màn hình và hưởng lợi từ kiến ​​thức thế giới của Gemini để mang lại kết quả đầu ra chính xác về mặt lịch sử và khoa học. Sora 2 và Seedance 2 là những mô hình chuyển văn bản thành video mạnh mẽ nhưng chúng thiếu quy trình đàm thoại và đầu vào đa phương thức thống nhất của Omni.
        Gemini Omni có thể chỉnh sửa video thông qua hội thoại được không?
        Có - đây là một trong những tính năng cốt lõi của nó. Bạn có thể thay đổi góc camera, hoán đổi đối tượng, phối lại hành động, thêm nhân vật hoặc biến đổi toàn bộ cảnh — tất cả đều bằng cách mô tả những gì bạn muốn bằng ngôn ngữ tự nhiên. Mỗi lần chỉnh sửa sẽ ghi nhớ những gì xảy ra trước đó nên video của bạn luôn nhất quán qua mỗi lượt.
        Video Gemini Omni có thể dài bao lâu? Nó có hỗ trợ âm thanh không?
        Có, Gemini Omni tạo video có âm thanh được đồng bộ hóa gốc — bao gồm nhạc nền, lồng tiếng và hiệu ứng âm thanh. Thời lượng video phụ thuộc vào độ phân giải: tối đa 10 giây ở 720p, 8 giây ở 1080p và 4 giây ở 4K.
        Gemini Omni Flash là gì?
        Gemini Omni Flash là mẫu đầu tiên trong dòng Omni, được phát hành vào tháng 5 năm 2026. Đây là phiên bản hiện có trong ứng dụng Gemini, Google Flow và YouTube Shorts. Các mẫu Omni trong tương lai sẽ hỗ trợ các phương thức đầu ra bổ sung bao gồm hình ảnh và âm thanh.
        Gemini Omni có API không?
        Google đã thông báo rằng quyền truy cập API của nhà phát triển và doanh nghiệp đã được lên kế hoạch nhưng chưa có sẵn trên diện rộng. Chúng tôi sẽ cập nhật trang này khi API ra mắt.
        Video Gemini Omni có bị đóng dấu hình mờ không?
        Có. Gemini Omni sử dụng công nghệ SynthID của Google DeepMind để nhúng hình mờ vô hình và hỗ trợ thông tin xác thực nội dung C2PA để người xem có thể xác minh nguồn gốc AI của video. Điều này bảo vệ cả người sáng tạo và khán giả.
        Hạn chế của Gemini Omni là gì?
        Gemini Omni là một bước tiến lớn nhưng thẻ mô hình của Google thừa nhận rằng việc duy trì tính nhất quán hoàn hảo thông qua chỉnh sửa nhiều lượt phức tạp, tạo cảnh có chuyển động rất phức tạp và hiển thị văn bản hoàn toàn chính xác trong mọi trường hợp vẫn là những thách thức lớn. Chúng tôi khuyên bạn nên xem xét kết quả đầu ra, đặc biệt là để sử dụng trong sản xuất.
        Gemini Omni dành cho ai?
        Người sáng tạo nội dung, nhà tiếp thị, nhà giáo dục, nhà làm phim và nhà thiết kế sản phẩm. Nếu bạn cần chuyển một ý tưởng thành video — dù là từ đầu hay bằng cách kết hợp lại các nội dung hiện có — Gemini Omni được xây dựng dành cho bạn.
        Bắt đầu tạo

        Hãy thử Gemini Omni — Tín dụng miễn phí, Không có danh sách chờ

        Biến văn bản, hình ảnh, âm thanh và video thành video sẵn sàng sản xuất bằng AI có thể hiểu được thế giới thực. Tín dụng miễn phí khi đăng ký, không cần thẻ tín dụng.