Gemini Omni ya disponible

Generador de vídeo Gemini Omni

Dilo. Velo. Compártelo. Crea vídeos como si chatearas: es la versión en vídeo de Nano Banana: desde cero, mezclando fotos del álbum o aplicando una plantilla.

Generación conversacional
Mezcla multimodal
Avatares virtuales de IA

Admite clips de 4 / 6 / 8 / 10 segundos y la fusión de hasta 3 imágenes de referencia.

Capacidades principales

Las seis capacidades principales de Gemini Omni

Posicionamiento oficial de Google: la versión en vídeo de Nano Banana — cualquiera puede generar, mezclar y editar vídeos mediante diálogo.

Crea de todo: mezcla multimodal

Combina libremente texto, imágenes y vídeos como entrada, haciendo que las ideas cobren vida en pantalla. Una descripción + una foto + un clip de referencia pueden producir una nueva obra.

Ideas para vlogs que se materializan al instante, montajes de vídeos cortos para redes sociales, dar movimiento a fotos de álbum, recreación a partir de vídeos de referencia.

Preservar el alma de la foto

Cambiar el fondo, la vestimenta o el estilo manteniendo los detalles originales intactos. Cambia el escenario pero no el “espíritu”.

Transformar fotos de documento en retratos profesionales, reemplazo de escenarios de producto, vídeos de moda estilizados, reconstrucción de recuerdos del álbum.

NEW

Edición conversacional

Di en una frase a Gemini lo que quieres cambiar: sustituir personajes, ajustar la iluminación, estabilizar la imagen, cambiar el fondo, sin necesidad de regenerar todo el segmento.

Modificaciones inmediatas según el feedback del cliente, pulido reiterado de anuncios, iteración de contenido para redes sociales, retoque de precisión en lugar de re-edición.

NEW

Edición de vídeo a vídeo

Sube un vídeo existente como entrada y permite que Gemini use IA para editarlo, cambiar su estilo o sustituir escenas sobre la base del material original.

Recreación de material antiguo, salida estilizada en múltiples versiones, remasterización basada en referencias, redistribución de contenido entre cuentas.

NEW

Avatar virtual de IA

Genera un avatar de IA que se asemeje a tu apariencia y voz, evitando la molestia de subir fotos cada vez. Configúralo una vez y úsalo en múltiples apariciones.

Matriz de cuentas de locución, contenido del fundador de la marca, distribución internacional multilingüe, presentadores para formación/venta.

Plantillas de estilo seleccionadas + audio nativo

Aplica las plantillas de estilo seleccionadas por Google con un solo toque; los clips de 10 segundos incluyen pista de audio nativa, con diálogo e imagen generados de forma sincronizada.

Nuevos creadores se ponen en marcha rápidamente, producción masiva para campañas festivas, cortos con diálogo, locuciones multilingües.

Casos de uso

Ejemplos oficiales de Gemini Omni

Todos los videos provienen de la página oficial de Google Gemini y muestran el efecto real de Omni en seis escenarios.

Texto a video

Convertir un concepto en un cortometraje

Convierte una descripción directamente en un cortometraje de 10 segundos; voz, imágenes y ritmo se generan de una sola vez

概念落地
10s 成片
原生音频
Multimodal

Combinación multimodal

Combina libremente texto + imágenes + video para dar vida a tus ideas en pantalla

混搭
文字
图片
Recreación fotográfica

Preserva el alma de la foto

Cambia el fondo, modifica la ropa o transforma el estilo, manteniendo intactos los detalles de la foto original

风格转移
换装
换背景
Plantilla

Plantillas de estilo seleccionadas

No hace falta buscar inspiración: con un solo toque aplica los estilos seleccionados por Google

模板
风格
快速出片
Edición conversacional

Edición conversacional

Dile a Gemini en una sola frase lo que quieres cambiar: cambiar personajes, ajustar la iluminación, estabilizar la imagen o modificar el fondo

对话
局部替换
迭代
Avatar virtual

Avatares virtuales de IA

Genera un avatar de IA que se parezca a tu aspecto y voz, y úsalo en múltiples apariciones sin necesidad de volver a subir contenido

数字人
口播
矩阵账号
Especificaciones técnicas

Parámetros técnicos de Gemini Omni

Especificaciones del modelo y restricciones de uso publicadas por Google.

Nombre del modelo
Gemini Omni Flash
Modelo multimodal de generación y edición de vídeo con IA, que reemplazará a Veo 3.1 dentro de la app Gemini.
Duración del clip
10 segundos
Límite por generación: 10 segundos
Modalidades de entrada
Texto + imagen + vídeo
Admite combinar hasta 5 fotos de referencia
Edición de vídeo a vídeo
Admite (NUEVO)
Sube un vídeo existente como entrada; la IA se encargará directamente de editarlo y reescribirlo
Edición multironda
Admite (NUEVO)
Continuar la conversación para perfeccionar el vídeo generado
Audio nativo
Generación de voz integrada
Genera diálogos, sonidos ambientales y audio sincronizado con la imagen
Avatar virtual de IA
Apariencia / voz coherentes (NUEVO)
Configúralo una vez para que aparezca repetidamente, sin tener que subir fotos cada vez
Marca de agua SynthID
Incrustada en todos los vídeos
Marca de agua invisible de Google, que permite identificar contenido generado por IA
Requisitos de uso
Google AI Plus / Pro / Ultra
Mayores de 18 años, disponibilidad según región; algunas funciones están limitadas en determinadas áreas
Ruta de actualización

De Veo 3.1 a Gemini Omni

Oficial de Google: Gemini Omni reemplazará a Veo en la app Gemini. Un salto en el posicionamiento: de 'generación' a 'generación + edición'.

Veo 3.1
Gemini Omni Flash
Posicionamiento principal
Modelo de generación de vídeo con IA
Modelo multimodal de generación + edición
Modalidades de entrada
Texto / Imágenes
Texto + imágenes + vídeo combinados (máx. 5 referencias)
Duración del clip
Clip corto
10 segundos
Edición conversacional
No admite
Sí, admite iteraciones múltiples
Edición de vídeo a vídeo
No admite
NUEVO, soporte nativo
Avatares virtuales con IA
No compatible
NUEVO, apariencia y voz coherentes
Audio nativo
Compatible
Compatible
Estado de la app Gemini
Será reemplazado
Modelo predeterminado de nueva generación
Edición conversacional

Convierte la generación de videos de "lotería" en un flujo de trabajo

Los modelos tradicionales de video requieren regenerar todo si no quedas satisfecho; Gemini Omni permite refinar como si dialogaras con un editor.

Dos usos típicos

Generación inicial

Describe la escena completa en lenguaje natural; la IA produce un borrador de 10 segundos de una sola vez.

La barista prepara un café con método manual en el mostrador junto a la ventana; la luz de la tarde atraviesa las persianas y proyecta sombras a rayas; primer plano que lentamente se acerca a su perfil sonriente.

Ideal para borradores e inspiración; primero ves la imagen y luego decides la dirección de los ajustes

Edición conversacional

Envía instrucciones posteriores sobre un video existente; solo se vuelve a renderizar las partes modificadas.

Cambia el filtro del segundo 3 al 5 a un tono dorado más cálido; Mantén a la persona sin cambios y cambia las persianas verde oscuro del fondo por un color beige crema; Añade en los últimos 2 segundos un primer plano de ella levantando la mirada y sonriendo.

Ahorra créditos, conserva las partes ya satisfactorias y permite iterar a una velocidad más cercana a un flujo de trabajo real de edición

Mejores prácticas para la edición de conversaciones

  • Genere primero el video completo antes de comenzar la edición de diálogos; evite interrumpir repetidamente mientras el borrador inicial no esté definido
  • Una instrucción debe cambiar solo una cosa (tono, movimiento de cámara, diálogo); completa una antes de la siguiente
  • Usa rangos de tiempo para delimitar el área a modificar (por ejemplo: segundos 2-4, los últimos 2 segundos)
  • Conserve task_id y callback para facilitar el rastreo del historial de modificaciones en la cadena de ingeniería
  • Si quiere cambiar la identidad del personaje, vuelva a subir imágenes de referencia en lugar de describir la apariencia con texto

Consejos profesionales

  • Las instrucciones de diálogo deben incluir verbo + objeto + modificador ('Cambia el fondo por X' es mejor que 'El fondo no está bien')
  • Si necesitas cambiar el lenguaje de planos, indica claramente 'Cambiar a primer plano / plano medio / travelling'
  • Las tareas fallidas no se facturan; ante fallos esporádicos, reintenta de forma idempotente
  • Para tareas importantes, integra webhook para evitar que el long polling consuma tu cuota de solicitudes
Guía de prompts

Mejores prácticas de prompts de Gemini Omni

En la edición conversacional, los prompts ya no son solo “instrucciones únicas”, sino la base de la “colaboración en múltiples rondas”.

Plantilla para generación del primer borrador

Un vídeo de aproximadamente 10 segundos: [escena], [acción principal], [lenguaje de cámara], [iluminación / ambiente], [descripción del audio original: sonido ambiental / diálogo / estilo musical].

Por qué funciona: incluye las cuatro claves: escena + acción + lenguaje de cámara + audio, de modo que la IA puede generar de una vez un borrador utilizable

Casos de uso: para cualquier generación inicial

Plantilla de reemplazo parcial

Mantén la persona / composición / ritmo sin cambios; sustituye [elemento] por [nuevo elemento]. El resto permanece igual.

Por qué funciona: indica claramente al modelo qué debe permanecer y qué debe cambiar, evitando que regenere cosas innecesariamente

Casos de uso: sustituir fondo, utilería, texto, tonalidad

Plantilla de intervalo de tiempo

En el intervalo de [a]-[b] segundos: [cambio a realizar]; mantener el resto sin cambios.

Por qué funciona: al anclar el cambio en el tiempo, el modelo solo vuelve a renderizar los fotogramas correspondientes

Casos de uso: ajuste fino del inicio, el final y momentos clave

Plantilla: imagen de referencia + múltiples tomas

La imagen de referencia sirve como ancla visual del [personaje / producto]. Genera 3 tomas consecutivas: Toma 1 [acción/encuadre]; Toma 2 [acción/encuadre]; Toma 3 [acción/encuadre]. Mantén la identidad de la imagen de referencia consistente a lo largo de las tres tomas.

Por qué funciona: la imagen de referencia fija la identidad y el desglose de planos explícito, junto con la consistencia en contexto largo, maximizan el resultado

Casos de uso: anuncios narrativos, contenido en serie, series de videos de IP

Preguntas frecuentes

Preguntas frecuentes sobre Gemini Omni

¿Qué es Gemini Omni?

Gemini Omni es un modelo capaz de comprender el mundo que te permite dar movimiento a fotos o generar vídeos a partir de cualquier entrada. Se basa en la comprensión del mundo y las capacidades multimodales nativas de Gemini; sus resultados siguen la lógica del mundo real y permiten refinamientos paso a paso mediante diálogo natural. Con una sola indicación, puedes convertirte en editor de vídeo con IA——transforma cualquier combinación de texto / imágenes / vídeos en un vídeo, genera vídeos usando hasta 5 fotos como referencia y edita fácilmente vídeos existentes.

¿Qué entradas admite?

Descripción de texto, imágenes(hasta 5 fotos de referencia)y clips de vídeo. Las tres modalidades se pueden mezclar libremente como entradas para la generación o la edición.

¿Qué tipo de ediciones se pueden hacer?

Mediante instrucciones por diálogo puedes cambiar personajes, ajustar la iluminación, estabilizar la toma, modificar el fondo, transferir estilos y cambiar la vestimenta——los detalles clave de la imagen original se conservarán.

¿Cuál es la duración de los vídeos generados?

La duración máxima por generación es de 10 segundos. Puedes ampliar o refinar el vídeo original mediante nuevas instrucciones por diálogo.

¿Qué es un avatar virtual de IA?

Entrena una vez tu avatar de IA y, a partir de entonces, no necesitarás subir fotos cada vez: el avatar podrá aparecer de forma continuada con tu apariencia y voz——ideal para cuentas de presentador, contenidos de marca y distribución internacional.

¿Los vídeos generados tienen marca de agua?

Google inserta en todos los vídeos generados por Omni una marca de agua invisible SynthID para identificar contenido generado por IA; no afecta la experiencia de visualización.

Comienza a crear

Di tu idea, ve los resultados

Gemini Omni devuelve la creación de vídeos al ritmo del diálogo——cualquiera puede empezar con una frase y editarlo con otra.

Crear vídeos como si chatearas
Combina libremente texto, imágenes y vídeos
Edición conversacional, visualiza los cambios al instante
Avatar virtual de IA, configúralo una vez y úsalo repetidamente
Gemini Omni: modelo conversacional de generación de vídeo de Google | CreatOK | CreatOK