CausVid, el generador de videos creado en el MIT destapa la olla de la automatización

Desarrollado en colaboración con Adobe, el sistema permite echar una mirada al detrás de escena de herramientas como Sora de OpenAI y Veo 2 de Google.

Por

Uriel Bederman

18 de mayo 2025, 05:43hs

La herramienta permite crear clips en un abrir y cerrar de ojos: el proceso “clásico” requeriría unos 50 pasos. (Foto: Creada con ChatGPT)

Una de las manifestaciones más emocionantes en el presente boom de la Inteligencia Artificial es protagonizado por los generadores de video, capaces de crear clips audiovisuales a partir de instrucciones por escrito. Los emblemas en ese mundillo salen de las entrañas de dos gigantes estadounidenses: Sora, de Open AI, y Veo 2, de Google.

Leé también: “Se hacen solos”: estos son los tres generadores más famosos para convertir texto en videos

Adentrándonos en ese mundillo, científicos del Instituto Tecnológico de Massachusetts, el célebre MIT, crearon junto al especialista Adobe un generador híbrido denominado “CausVid”. Más allá de sus funciones específicas y de su capacidad para, también, entregar videos basándose en textos; este desarrollo destapa la olla de los sistemas arriba mencionados. Además, ¿por qué su naturaleza mixta le aporta una fortaleza especial?

El primer paso: ¿cómo funcionan los generadores de video con Inteligencia Artificial?

Sora y Veo, hemos dicho, son los paradigmas de la generación de videos con IA. La magia de esos sistemas comienza con un prompt, que en la jerga son las instrucciones que escribe el . Por ejemplo, para el siguiente video creado con el modelo de Google la indicación ha sido algo así como “en un bosque nevado, una ardilla vestida con ropa navideña anda en una patineta”. Es posible pedir casi cualquier cosa.

Estos sistemas operan en base a prompts por escrito. (Video: Google Veo 2)

Las herramientas ya conocidas (algunas de ellas ya disponibles para los s) generan clips con diversos estilos, desde escenas realistas o dibujos, hasta animaciones similares a las del cine.

Según explican desde el MIT, podríamos pesar que el proceso en estos generadores es similar a la animación stop-motion, que crean y unen muchas imágenes. Pero no es así. “En lugar de producir fotograma a fotograma, estos sistemas procesan toda la secuencia a la vez. El trabajo es lento y no permite cambios sobre la marcha”, explican.

¿Cómo funciona CausVid?

Creado por científicos del CSAIL, el laboratorio del MIT abocado a la IA, en colaboración con especialistas de Adobe Research, el área de investigación de la empresa conocida por el Photoshop; CausVid se destaca por ser un generador de enfoque híbrido.

El modelo se destaca por su carácter híbrido. (Video: MIT CSAIL)

“CausVid combina un modelo preentrenado basado en difusión, con una arquitectura autorregresiva que se encuentra habitualmente en los modelos de generación de texto”, explica Tianwei Yin, uno de los autores principal del artículo en el que se detallan las características de la herramienta. “Este modelo docente impulsado por IA puede prever los pasos futuros para entrenar un sistema fotograma a fotograma y evitar errores de renderizado".

Leé también: El impacto de la IA en YouTube: doblajes automáticos, nuevos formatos y más contenido de creadores

¿Cómo trabaja, en la práctica? Desde la institución estadounidense señalan que lo hace de forma similar a cómo un estudiante atento aprende de un profesor experto. En sus entrañas opera un modelo de difusión que, por su parte, entrena a un sistema que predice velozmente cuál será el siguiente fotograma en el video. Igual que las herramientas mencionadas (Sora y Veo) genera clips audiovisuales a partir de simples instrucciones de texto.

Un clip generado con CausVid. (Imagen: MIT CSAIL)

CausVid no se limita a las creaciones desde cero y, en ese sentido, puede servir como un editor de video. También puede dotar de movimiento a una fotografía, extender piezas ya existentes o realizar cambios en los resultados que generó, con nuevas entradas a mitad del proceso. Por ejemplo, los s pueden escribir una instrucción inicial (“genera un hombre que cruza una calle”) y después agregar nuevas indicaciones, para completar la escena en forma gradual. A esa consecución de prompts la llaman “entradas de seguimiento”.

Según observan desde el MIT, esta herramienta es capaz de concretar en pocas acciones un proceso que, de otro modo, requeriría unos 50 pasos.

Las falencias de los generadores de video, al descubierto

Este desarrollo que emerge del MIT, hemos dicho, deja al descubierto algunas de las fallas de los modelos de IA ahora conocidos para la generación de videos. Muchos de ellos pueden crear piezas con movimientos fluidos, cuya calidad va degradándose con el correr de los segundos. Esto ocurre porque ocurren inconsistencias fotograma a fotograma, errores que se deben a una acumulación.

Somos testigos directos del boom de la IA Generativa. (Foto: Creada con ChatGPT)

“La generación de video propensa a errores era común en los enfoques que aprendieron a predecir fotogramas uno a uno (en los modelos de difusión). En cambio, CausVid utiliza un modelo de difusión de alta potencia para enseñar a un sistema más sencillo su experiencia general, lo que le permite crear imágenes fluidas, pero mucho más rápido”, señalan los creadores de este modelo y aseguran que superó a otros de referencia, como Sora de OpenAI. Presumen que los resultados son más estables, de más calidad y que se generan hasta 100 veces más rápido.

Los alcances de este desarrollo no se agotan en la simple generación de clips. Yin afirma que el modelo podría ser entenado para tareas más específicas, como la creación de videojuegos o el entrenamiento de robots. Por otra parte, los investigadores destacan que este enfoque, al ser más veloz en sus procedimientos, genere una menor huella de carbono, una variable que gana cada vez más atención en el marco del despliegue de la IA.

Leé también: La Inteligencia Artificial mejora si es charlatana: las alucinaciones aumentan en las respuestas breves

Se espera que los detalles sobre CausVid sean profundizados en la Conference on Computer Vision and Pattern Recognition que se celebrará en junio, en Nashville, Estados Unidos.

Temas de hoy:

CausVid, el generador de videos creado en el MIT destapa la olla de la automatización

Desarrollado en colaboración con Adobe, el sistema permite echar una mirada al detrás de escena de herramientas como Sora de OpenAI y Veo 2 de Google.

Uriel Bederman

El primer paso: ¿cómo funcionan los generadores de video con Inteligencia Artificial?

¿Cómo funciona CausVid?

Las falencias de los generadores de video, al descubierto

“No tienen ni idea”: el descargo del joven que fue acusado de serle infiel a su novia en el recital de Airbag

Una joven “se enamoró” de un chico en el show de Airbag, le dio un beso y recibió una noticia devastadora

Dos fans se enamoraron en un show de Airbag, la historia se hizo viral, pero una confusión casi hace caer todo

Espejitos de colores: su Inteligencia Artificial eran 700 ingenieros que tipeaban respuestas desde la India

Lanzaron un programa especializado en juegos online para el desarrollo de profesionales argentinos

Temas de la nota

Más sobre Tecno

¿Qué tan inofensivas son las cookies que aceptamos al navegar por internet?

Se enamoró de una chica que le hizo una compra por internet, le habló, pero la respuesta que recibió fue fatal

Un informe reveló que uno de cada tres ciberataques a empresas son a través de cuentas robadas a empleados