Generador de vídeo Gemini Omni
Dilo. Velo. Compártelo. Crea vídeos como si chatearas: es la versión en vídeo de Nano Banana: desde cero, mezclando fotos del álbum o aplicando una plantilla.
Admite clips de 4 / 6 / 8 / 10 segundos y la fusión de hasta 3 imágenes de referencia.
Las seis capacidades principales de Gemini Omni
Posicionamiento oficial de Google: la versión en vídeo de Nano Banana — cualquiera puede generar, mezclar y editar vídeos mediante diálogo.
Crea de todo: mezcla multimodal
Combina libremente texto, imágenes y vídeos como entrada, haciendo que las ideas cobren vida en pantalla. Una descripción + una foto + un clip de referencia pueden producir una nueva obra.
Ideas para vlogs que se materializan al instante, montajes de vídeos cortos para redes sociales, dar movimiento a fotos de álbum, recreación a partir de vídeos de referencia.
Preservar el alma de la foto
Cambiar el fondo, la vestimenta o el estilo manteniendo los detalles originales intactos. Cambia el escenario pero no el “espíritu”.
Transformar fotos de documento en retratos profesionales, reemplazo de escenarios de producto, vídeos de moda estilizados, reconstrucción de recuerdos del álbum.
Edición conversacional
Di en una frase a Gemini lo que quieres cambiar: sustituir personajes, ajustar la iluminación, estabilizar la imagen, cambiar el fondo, sin necesidad de regenerar todo el segmento.
Modificaciones inmediatas según el feedback del cliente, pulido reiterado de anuncios, iteración de contenido para redes sociales, retoque de precisión en lugar de re-edición.
Edición de vídeo a vídeo
Sube un vídeo existente como entrada y permite que Gemini use IA para editarlo, cambiar su estilo o sustituir escenas sobre la base del material original.
Recreación de material antiguo, salida estilizada en múltiples versiones, remasterización basada en referencias, redistribución de contenido entre cuentas.
Avatar virtual de IA
Genera un avatar de IA que se asemeje a tu apariencia y voz, evitando la molestia de subir fotos cada vez. Configúralo una vez y úsalo en múltiples apariciones.
Matriz de cuentas de locución, contenido del fundador de la marca, distribución internacional multilingüe, presentadores para formación/venta.
Plantillas de estilo seleccionadas + audio nativo
Aplica las plantillas de estilo seleccionadas por Google con un solo toque; los clips de 10 segundos incluyen pista de audio nativa, con diálogo e imagen generados de forma sincronizada.
Nuevos creadores se ponen en marcha rápidamente, producción masiva para campañas festivas, cortos con diálogo, locuciones multilingües.
Ejemplos oficiales de Gemini Omni
Todos los videos provienen de la página oficial de Google Gemini y muestran el efecto real de Omni en seis escenarios.
Convertir un concepto en un cortometraje
Convierte una descripción directamente en un cortometraje de 10 segundos; voz, imágenes y ritmo se generan de una sola vez
Combinación multimodal
Combina libremente texto + imágenes + video para dar vida a tus ideas en pantalla
Preserva el alma de la foto
Cambia el fondo, modifica la ropa o transforma el estilo, manteniendo intactos los detalles de la foto original
Plantillas de estilo seleccionadas
No hace falta buscar inspiración: con un solo toque aplica los estilos seleccionados por Google
Edición conversacional
Dile a Gemini en una sola frase lo que quieres cambiar: cambiar personajes, ajustar la iluminación, estabilizar la imagen o modificar el fondo
Avatares virtuales de IA
Genera un avatar de IA que se parezca a tu aspecto y voz, y úsalo en múltiples apariciones sin necesidad de volver a subir contenido
Parámetros técnicos de Gemini Omni
Especificaciones del modelo y restricciones de uso publicadas por Google.
De Veo 3.1 a Gemini Omni
Oficial de Google: Gemini Omni reemplazará a Veo en la app Gemini. Un salto en el posicionamiento: de 'generación' a 'generación + edición'.
Convierte la generación de videos de "lotería" en un flujo de trabajo
Los modelos tradicionales de video requieren regenerar todo si no quedas satisfecho; Gemini Omni permite refinar como si dialogaras con un editor.
Dos usos típicos
Generación inicial
Describe la escena completa en lenguaje natural; la IA produce un borrador de 10 segundos de una sola vez.
La barista prepara un café con método manual en el mostrador junto a la ventana; la luz de la tarde atraviesa las persianas y proyecta sombras a rayas; primer plano que lentamente se acerca a su perfil sonriente.Ideal para borradores e inspiración; primero ves la imagen y luego decides la dirección de los ajustes
Edición conversacional
Envía instrucciones posteriores sobre un video existente; solo se vuelve a renderizar las partes modificadas.
Cambia el filtro del segundo 3 al 5 a un tono dorado más cálido;
Mantén a la persona sin cambios y cambia las persianas verde oscuro del fondo por un color beige crema;
Añade en los últimos 2 segundos un primer plano de ella levantando la mirada y sonriendo.Ahorra créditos, conserva las partes ya satisfactorias y permite iterar a una velocidad más cercana a un flujo de trabajo real de edición
Mejores prácticas para la edición de conversaciones
- Genere primero el video completo antes de comenzar la edición de diálogos; evite interrumpir repetidamente mientras el borrador inicial no esté definido
- Una instrucción debe cambiar solo una cosa (tono, movimiento de cámara, diálogo); completa una antes de la siguiente
- Usa rangos de tiempo para delimitar el área a modificar (por ejemplo: segundos 2-4, los últimos 2 segundos)
- Conserve task_id y callback para facilitar el rastreo del historial de modificaciones en la cadena de ingeniería
- Si quiere cambiar la identidad del personaje, vuelva a subir imágenes de referencia en lugar de describir la apariencia con texto
Consejos profesionales
- Las instrucciones de diálogo deben incluir verbo + objeto + modificador ('Cambia el fondo por X' es mejor que 'El fondo no está bien')
- Si necesitas cambiar el lenguaje de planos, indica claramente 'Cambiar a primer plano / plano medio / travelling'
- Las tareas fallidas no se facturan; ante fallos esporádicos, reintenta de forma idempotente
- Para tareas importantes, integra webhook para evitar que el long polling consuma tu cuota de solicitudes
Mejores prácticas de prompts de Gemini Omni
En la edición conversacional, los prompts ya no son solo “instrucciones únicas”, sino la base de la “colaboración en múltiples rondas”.
Plantilla para generación del primer borrador
Un vídeo de aproximadamente 10 segundos: [escena], [acción principal], [lenguaje de cámara], [iluminación / ambiente], [descripción del audio original: sonido ambiental / diálogo / estilo musical].Por qué funciona: incluye las cuatro claves: escena + acción + lenguaje de cámara + audio, de modo que la IA puede generar de una vez un borrador utilizable
Casos de uso: para cualquier generación inicial
Plantilla de reemplazo parcial
Mantén la persona / composición / ritmo sin cambios; sustituye [elemento] por [nuevo elemento]. El resto permanece igual.Por qué funciona: indica claramente al modelo qué debe permanecer y qué debe cambiar, evitando que regenere cosas innecesariamente
Casos de uso: sustituir fondo, utilería, texto, tonalidad
Plantilla de intervalo de tiempo
En el intervalo de [a]-[b] segundos: [cambio a realizar]; mantener el resto sin cambios.Por qué funciona: al anclar el cambio en el tiempo, el modelo solo vuelve a renderizar los fotogramas correspondientes
Casos de uso: ajuste fino del inicio, el final y momentos clave
Plantilla: imagen de referencia + múltiples tomas
La imagen de referencia sirve como ancla visual del [personaje / producto]. Genera 3 tomas consecutivas: Toma 1 [acción/encuadre]; Toma 2 [acción/encuadre]; Toma 3 [acción/encuadre]. Mantén la identidad de la imagen de referencia consistente a lo largo de las tres tomas.Por qué funciona: la imagen de referencia fija la identidad y el desglose de planos explícito, junto con la consistencia en contexto largo, maximizan el resultado
Casos de uso: anuncios narrativos, contenido en serie, series de videos de IP
Preguntas frecuentes sobre Gemini Omni
¿Qué es Gemini Omni?
Gemini Omni es un modelo capaz de comprender el mundo que te permite dar movimiento a fotos o generar vídeos a partir de cualquier entrada. Se basa en la comprensión del mundo y las capacidades multimodales nativas de Gemini; sus resultados siguen la lógica del mundo real y permiten refinamientos paso a paso mediante diálogo natural. Con una sola indicación, puedes convertirte en editor de vídeo con IA——transforma cualquier combinación de texto / imágenes / vídeos en un vídeo, genera vídeos usando hasta 5 fotos como referencia y edita fácilmente vídeos existentes.
¿Qué entradas admite?
Descripción de texto, imágenes(hasta 5 fotos de referencia)y clips de vídeo. Las tres modalidades se pueden mezclar libremente como entradas para la generación o la edición.
¿Qué tipo de ediciones se pueden hacer?
Mediante instrucciones por diálogo puedes cambiar personajes, ajustar la iluminación, estabilizar la toma, modificar el fondo, transferir estilos y cambiar la vestimenta——los detalles clave de la imagen original se conservarán.
¿Cuál es la duración de los vídeos generados?
La duración máxima por generación es de 10 segundos. Puedes ampliar o refinar el vídeo original mediante nuevas instrucciones por diálogo.
¿Qué es un avatar virtual de IA?
Entrena una vez tu avatar de IA y, a partir de entonces, no necesitarás subir fotos cada vez: el avatar podrá aparecer de forma continuada con tu apariencia y voz——ideal para cuentas de presentador, contenidos de marca y distribución internacional.
¿Los vídeos generados tienen marca de agua?
Google inserta en todos los vídeos generados por Omni una marca de agua invisible SynthID para identificar contenido generado por IA; no afecta la experiencia de visualización.
Di tu idea, ve los resultados
Gemini Omni devuelve la creación de vídeos al ritmo del diálogo——cualquiera puede empezar con una frase y editarlo con otra.