FramePack permite generar vídeos por IA con solo 6 GB de VRAM

Publicado

por

Para generar vÃdeo por IA de forma local es necesario contar con una GPU bastante potente que, ademÃ¡s, deberÃ¡ tener una cantidad concreta de memoria grÃ¡fica. La cantidad de memoria grÃ¡fica necesaria para generar vÃdeo por IA dependerÃ¡ del modelo que utilicemos, pero en general la mayorÃa de los modelos necesitan al menos 12 GB de VRAM.

Si no tenemos una GPU con al menos 12 GB de memoria grÃ¡fica no podremos acceder a modelos avanzados que nos permitirÃ¡n conseguir un buen resultado al utilizar una IA generativa para crear vÃdeo, Â¿pero por quÃ© necesitan tanta memoria grÃ¡fica estos modelos?

Necesitan una cantidad tan alta de memoria grÃ¡fica por la manera en la que trabajan. Cuando generamos vÃdeo por IA el modelo que utilizamos genera nuevos fotogramas a travÃ©s de predicciones basadas en los fotogramas anteriores. Estoy seguro de que esto os suena, y sÃ, la idea base es la misma que hemos visto en la generaciÃ³n de fotogramas de NVIDIA.

Ese mÃ©todo de trabajo crea lo que se conoce como el contexto temporal, que va creciendo en funciÃ³n de los fotogramas que se han ido generando. Cuanto mÃ¡s largo sea el vÃdeo, y cuanto mayor sea la tasa de fotogramas por segundo, mÃ¡s cantidad de fotogramas se habrÃ¡n generado y mÃ¡s grande serÃ¡ el contexto temporal.

Un mayor contexto temporal implica un mayor consumo de memoria grÃ¡fica, y establece unos requisitos mÃnimos para funcionar de forma eficiente. Actualmente ese mÃnimo estÃ¡ fijado en 12 GB de memoria grÃ¡fica, pero dos investigadores de la Universidad de Standford han conseguido un importante punto de inflexiÃ³n con FramePack, una arquitectura de red neural que nos permitirÃ¡ generar vÃdeo por IA con solo 6 GB de memoria grÃ¡fica.

FramePack utiliza un modelo de 13.000 millones de parÃ¡metros, una cifra impresionante si tenemos en cuenta que estÃ¡ diseÃ±ado para funcionar con solo 6 GB de memoria grÃ¡fica. Para generar vÃdeos por IA con tan poca VRAM recurre a un truco para lidiar con el tema del contexto temporal, la compresiÃ³n de los fotogramas de entrada.

El modelo no se limita a comprimir fotogramas de manera indiscriminada, sino que los comprime dependiendo de la importancia que tenga cada uno en un contexto de duraciÃ³n fija. De esta manera es posible reducir notablemente el consumo de memoria grÃ¡fica con independencia de la duraciÃ³n del vÃdeo generado.

Es una innovaciÃ³n importante, porque permite al modelo procesar de una manera mÃ¡s eficiente miles de fotogramas incluso en GPUs con bajos recursos, y tambiÃ©n en grÃ¡ficas para portÃ¡tiles. La generaciÃ³n de vÃdeo por IA en portÃ¡tiles y en equipos modestos es una realidad gracias a FramePack, un modelo que tambiÃ©n permite el entrenamiento con lotes de un tamaÃ±o comparable a los utilizados en los modelos de generaciÃ³n de imÃ¡genes.

Este modelo estÃ¡ disponible en GitHub, y cuenta con una interfaz grÃ¡fica de usuario bastante intuitiva y fÃ¡cil de usar, ya que permite subir imÃ¡genes introducir comandos y tambiÃ©n obtener una vista previa de los fotogramas generados.

El rendimiento de este modelo escala con la potencia de la tarjeta grÃ¡fica que tengamos, y tambiÃ©n con la cantidad de memoria grÃ¡fica disponible. Por ejemplo, con una GeForce RTX 4090 se genera un fotograma cada 2,5 segundos, mientras que con una GeForce RTX 3060 de portÃ¡til (6 GB de VRAM) el tiempo de generaciÃ³n por fotograma se multiplica por 8, es decir, tarda 20 segundos en generar cada fotograma.

Sabemos que este modelo es compatible con las GeForce RTX 30, GeForce RTX 40 y GeForce RTX 50, y que utiliza instrucciones FP16 y BF16. No ha sido probado con generaciones anteriores, como las GeForce RTX 20, y no sabemos si algÃºn dÃa recibirÃ¡ soporte de tarjetas grÃ¡ficas AMD Radeon e Intel Arc.

Por el sistema operativo no tendrÃ¡s que preocuparte, porque FramePack funciona sin problemas en diferentes sistemas operativos, incluido Linux.Â Si cumples con los requisitos mÃnimos y tienes, por ejemplo, una GeForce RTX 3050 de 6 GB, podrÃ¡s utilizar este modelo de 13.000 millones de parÃ¡metros para generar vÃdeos de 1 minuto a 30 FPS.

Microsoft Copilot ya es capaz de crear presentaciones en PowerPoint

Editor de la publicaciÃ³n on-line lÃder en audiencia dentro de la informaciÃ³n tecnolÃ³gica para profesionales. Al dÃa de todas las tecnologÃas que pueden marcar tendencia en la industria.

Microsoft Copilot ya es capaz de crear presentaciones en PowerPoint

ChatGPT estÃ¡ encantado de ayudarte. Y de halagarte. Y de decirte lo increÃble que eres. Siempre.

Claude muestra su propio sistema de valores

Microsoft BitNet, una IA revolucionaria que funciona sin GPU y con solo 400 MB de memoria

Meta bloquea Apple Intelligence en sus apps

ChatGPT revela ubicaciones con solo una imagen

Windows 11 va lento: cÃ³mo resolverlo y cÃ³mo mejorar el rendimiento

GEEKOM Mini Air12 en oferta, un mini PC muy econÃ³mico con un descuento del 40%

GeForce RTX 5060 Ti y GeForce RTX 5060, especificaciones finales, rendimiento y precio