Gemini Omni ya disponible

Generador de vídeo Gemini Omni

Dilo. Velo. Compártelo. Crea vídeos como si chatearas: es la versión en vídeo de Nano Banana: desde cero, mezclando fotos del álbum o aplicando una plantilla.

Generación conversacional

Mezcla multimodal

Avatares virtuales de IA

Admite clips de 4 / 6 / 8 / 10 segundos y la fusión de hasta 3 imágenes de referencia.

Abrir el generador de vídeo completo Ver ejemplos

Capacidades principales

Las seis capacidades principales de Gemini Omni

Posicionamiento oficial de Google: la versión en vídeo de Nano Banana — cualquiera puede generar, mezclar y editar vídeos mediante diálogo.

Crea de todo: mezcla multimodal

Combina libremente texto, imágenes y vídeos como entrada, haciendo que las ideas cobren vida en pantalla. Una descripción + una foto + un clip de referencia pueden producir una nueva obra.

Ideas para vlogs que se materializan al instante, montajes de vídeos cortos para redes sociales, dar movimiento a fotos de álbum, recreación a partir de vídeos de referencia.

Preservar el alma de la foto

Cambiar el fondo, la vestimenta o el estilo manteniendo los detalles originales intactos. Cambia el escenario pero no el “espíritu”.

Transformar fotos de documento en retratos profesionales, reemplazo de escenarios de producto, vídeos de moda estilizados, reconstrucción de recuerdos del álbum.

NEW

Edición conversacional

Di en una frase a Gemini lo que quieres cambiar: sustituir personajes, ajustar la iluminación, estabilizar la imagen, cambiar el fondo, sin necesidad de regenerar todo el segmento.

Modificaciones inmediatas según el feedback del cliente, pulido reiterado de anuncios, iteración de contenido para redes sociales, retoque de precisión en lugar de re-edición.

NEW

Edición de vídeo a vídeo

Sube un vídeo existente como entrada y permite que Gemini use IA para editarlo, cambiar su estilo o sustituir escenas sobre la base del material original.

Recreación de material antiguo, salida estilizada en múltiples versiones, remasterización basada en referencias, redistribución de contenido entre cuentas.

NEW

Avatar virtual de IA

Genera un avatar de IA que se asemeje a tu apariencia y voz, evitando la molestia de subir fotos cada vez. Configúralo una vez y úsalo en múltiples apariciones.

Matriz de cuentas de locución, contenido del fundador de la marca, distribución internacional multilingüe, presentadores para formación/venta.

Plantillas de estilo seleccionadas + audio nativo

Aplica las plantillas de estilo seleccionadas por Google con un solo toque; los clips de 10 segundos incluyen pista de audio nativa, con diálogo e imagen generados de forma sincronizada.

Nuevos creadores se ponen en marcha rápidamente, producción masiva para campañas festivas, cortos con diálogo, locuciones multilingües.

Casos de uso

Ejemplos oficiales de Gemini Omni

Todos los videos provienen de la página oficial de Google Gemini y muestran el efecto real de Omni en seis escenarios.

Texto a video

Convertir un concepto en un cortometraje

Convierte una descripción directamente en un cortometraje de 10 segundos; voz, imágenes y ritmo se generan de una sola vez

概念落地

10s 成片

原生音频

Multimodal

Combinación multimodal

Combina libremente texto + imágenes + video para dar vida a tus ideas en pantalla

混搭

文字

图片

Recreación fotográfica

Preserva el alma de la foto

Cambia el fondo, modifica la ropa o transforma el estilo, manteniendo intactos los detalles de la foto original

风格转移

换装

换背景

Plantilla

Plantillas de estilo seleccionadas

No hace falta buscar inspiración: con un solo toque aplica los estilos seleccionados por Google

模板

风格

快速出片

Edición conversacional

Dile a Gemini en una sola frase lo que quieres cambiar: cambiar personajes, ajustar la iluminación, estabilizar la imagen o modificar el fondo

对话

局部替换

迭代

Avatar virtual

Avatares virtuales de IA

Genera un avatar de IA que se parezca a tu aspecto y voz, y úsalo en múltiples apariciones sin necesidad de volver a subir contenido

数字人

口播

矩阵账号

Especificaciones técnicas

Parámetros técnicos de Gemini Omni

Especificaciones del modelo y restricciones de uso publicadas por Google.

Nombre del modelo

Gemini Omni Flash

Modelo multimodal de generación y edición de vídeo con IA, que reemplazará a Veo 3.1 dentro de la app Gemini.

Duración del clip

10 segundos

Límite por generación: 10 segundos

Modalidades de entrada

Texto + imagen + vídeo

Admite combinar hasta 5 fotos de referencia

Edición de vídeo a vídeo

Admite (NUEVO)

Sube un vídeo existente como entrada; la IA se encargará directamente de editarlo y reescribirlo

Edición multironda

Admite (NUEVO)

Continuar la conversación para perfeccionar el vídeo generado

Audio nativo

Generación de voz integrada

Genera diálogos, sonidos ambientales y audio sincronizado con la imagen

Avatar virtual de IA

Apariencia / voz coherentes (NUEVO)

Configúralo una vez para que aparezca repetidamente, sin tener que subir fotos cada vez

Marca de agua SynthID

Incrustada en todos los vídeos

Marca de agua invisible de Google, que permite identificar contenido generado por IA

Requisitos de uso

Google AI Plus / Pro / Ultra

Mayores de 18 años, disponibilidad según región; algunas funciones están limitadas en determinadas áreas

Ruta de actualización

De Veo 3.1 a Gemini Omni

Oficial de Google: Gemini Omni reemplazará a Veo en la app Gemini. Un salto en el posicionamiento: de 'generación' a 'generación + edición'.

Veo 3.1

Gemini Omni Flash

Posicionamiento principal

Modelo de generación de vídeo con IA

Modelo multimodal de generación + edición

Modalidades de entrada

Texto / Imágenes

Texto + imágenes + vídeo combinados (máx. 5 referencias)

Duración del clip

Clip corto

10 segundos

Edición conversacional

No admite

Sí, admite iteraciones múltiples

Edición de vídeo a vídeo

No admite

NUEVO, soporte nativo

Avatares virtuales con IA

No compatible

NUEVO, apariencia y voz coherentes

Audio nativo

Compatible

Estado de la app Gemini

Será reemplazado

Modelo predeterminado de nueva generación

Edición conversacional

Convierte la generación de videos de "lotería" en un flujo de trabajo

Los modelos tradicionales de video requieren regenerar todo si no quedas satisfecho; Gemini Omni permite refinar como si dialogaras con un editor.

Dos usos típicos

Generación inicial

Describe la escena completa en lenguaje natural; la IA produce un borrador de 10 segundos de una sola vez.

La barista prepara un café con método manual en el mostrador junto a la ventana; la luz de la tarde atraviesa las persianas y proyecta sombras a rayas; primer plano que lentamente se acerca a su perfil sonriente.

Ideal para borradores e inspiración; primero ves la imagen y luego decides la dirección de los ajustes

Edición conversacional

Envía instrucciones posteriores sobre un video existente; solo se vuelve a renderizar las partes modificadas.

Cambia el filtro del segundo 3 al 5 a un tono dorado más cálido;
Mantén a la persona sin cambios y cambia las persianas verde oscuro del fondo por un color beige crema;
Añade en los últimos 2 segundos un primer plano de ella levantando la mirada y sonriendo.

Ahorra créditos, conserva las partes ya satisfactorias y permite iterar a una velocidad más cercana a un flujo de trabajo real de edición

Mejores prácticas para la edición de conversaciones

Genere primero el video completo antes de comenzar la edición de diálogos; evite interrumpir repetidamente mientras el borrador inicial no esté definido
Una instrucción debe cambiar solo una cosa (tono, movimiento de cámara, diálogo); completa una antes de la siguiente
Usa rangos de tiempo para delimitar el área a modificar (por ejemplo: segundos 2-4, los últimos 2 segundos)
Conserve task_id y callback para facilitar el rastreo del historial de modificaciones en la cadena de ingeniería
Si quiere cambiar la identidad del personaje, vuelva a subir imágenes de referencia en lugar de describir la apariencia con texto

Consejos profesionales

Las instrucciones de diálogo deben incluir verbo + objeto + modificador ('Cambia el fondo por X' es mejor que 'El fondo no está bien')
Si necesitas cambiar el lenguaje de planos, indica claramente 'Cambiar a primer plano / plano medio / travelling'
Las tareas fallidas no se facturan; ante fallos esporádicos, reintenta de forma idempotente
Para tareas importantes, integra webhook para evitar que el long polling consuma tu cuota de solicitudes

Guía de prompts

Mejores prácticas de prompts de Gemini Omni

En la edición conversacional, los prompts ya no son solo “instrucciones únicas”, sino la base de la “colaboración en múltiples rondas”.

Plantilla para generación del primer borrador

Un vídeo de aproximadamente 10 segundos: [escena], [acción principal], [lenguaje de cámara], [iluminación / ambiente], [descripción del audio original: sonido ambiental / diálogo / estilo musical].

Por qué funciona: incluye las cuatro claves: escena + acción + lenguaje de cámara + audio, de modo que la IA puede generar de una vez un borrador utilizable

Casos de uso: para cualquier generación inicial

Plantilla de reemplazo parcial

Mantén la persona / composición / ritmo sin cambios; sustituye [elemento] por [nuevo elemento]. El resto permanece igual.

Por qué funciona: indica claramente al modelo qué debe permanecer y qué debe cambiar, evitando que regenere cosas innecesariamente

Casos de uso: sustituir fondo, utilería, texto, tonalidad

Plantilla de intervalo de tiempo

En el intervalo de [a]-[b] segundos: [cambio a realizar]; mantener el resto sin cambios.

Por qué funciona: al anclar el cambio en el tiempo, el modelo solo vuelve a renderizar los fotogramas correspondientes

Casos de uso: ajuste fino del inicio, el final y momentos clave

Plantilla: imagen de referencia + múltiples tomas

La imagen de referencia sirve como ancla visual del [personaje / producto]. Genera 3 tomas consecutivas: Toma 1 [acción/encuadre]; Toma 2 [acción/encuadre]; Toma 3 [acción/encuadre]. Mantén la identidad de la imagen de referencia consistente a lo largo de las tres tomas.

Por qué funciona: la imagen de referencia fija la identidad y el desglose de planos explícito, junto con la consistencia en contexto largo, maximizan el resultado

Casos de uso: anuncios narrativos, contenido en serie, series de videos de IP

Preguntas frecuentes

Preguntas frecuentes sobre Gemini Omni

¿Qué es Gemini Omni?

Gemini Omni es un modelo capaz de comprender el mundo que te permite dar movimiento a fotos o generar vídeos a partir de cualquier entrada. Se basa en la comprensión del mundo y las capacidades multimodales nativas de Gemini; sus resultados siguen la lógica del mundo real y permiten refinamientos paso a paso mediante diálogo natural. Con una sola indicación, puedes convertirte en editor de vídeo con IA——transforma cualquier combinación de texto / imágenes / vídeos en un vídeo, genera vídeos usando hasta 5 fotos como referencia y edita fácilmente vídeos existentes.

¿Qué entradas admite?

Descripción de texto, imágenes（hasta 5 fotos de referencia）y clips de vídeo. Las tres modalidades se pueden mezclar libremente como entradas para la generación o la edición.

¿Qué tipo de ediciones se pueden hacer?

Mediante instrucciones por diálogo puedes cambiar personajes, ajustar la iluminación, estabilizar la toma, modificar el fondo, transferir estilos y cambiar la vestimenta——los detalles clave de la imagen original se conservarán.

¿Cuál es la duración de los vídeos generados?

La duración máxima por generación es de 10 segundos. Puedes ampliar o refinar el vídeo original mediante nuevas instrucciones por diálogo.

¿Qué es un avatar virtual de IA?

Entrena una vez tu avatar de IA y, a partir de entonces, no necesitarás subir fotos cada vez: el avatar podrá aparecer de forma continuada con tu apariencia y voz——ideal para cuentas de presentador, contenidos de marca y distribución internacional.

¿Los vídeos generados tienen marca de agua?

Google inserta en todos los vídeos generados por Omni una marca de agua invisible SynthID para identificar contenido generado por IA; no afecta la experiencia de visualización.

Comienza a crear

Di tu idea, ve los resultados

Gemini Omni devuelve la creación de vídeos al ritmo del diálogo——cualquiera puede empezar con una frase y editarlo con otra.

Crear vídeos como si chatearas

Combina libremente texto, imágenes y vídeos

Edición conversacional, visualiza los cambios al instante

Avatar virtual de IA, configúralo una vez y úsalo repetidamente