Publicado
el
por
Para generar vÃdeo por IA de forma local es necesario contar con una GPU bastante potente que, además, deberá tener una cantidad concreta de memoria gráfica. La cantidad de memoria gráfica necesaria para generar vÃdeo por IA dependerá del modelo que utilicemos, pero en general la mayorÃa de los modelos necesitan al menos 12 GB de VRAM.
Si no tenemos una GPU con al menos 12 GB de memoria gráfica no podremos acceder a modelos avanzados que nos permitirán conseguir un buen resultado al utilizar una IA generativa para crear vÃdeo, ¿pero por qué necesitan tanta memoria gráfica estos modelos?
Necesitan una cantidad tan alta de memoria gráfica por la manera en la que trabajan. Cuando generamos vÃdeo por IA el modelo que utilizamos genera nuevos fotogramas a través de predicciones basadas en los fotogramas anteriores. Estoy seguro de que esto os suena, y sÃ, la idea base es la misma que hemos visto en la generación de fotogramas de NVIDIA.
Ese método de trabajo crea lo que se conoce como el contexto temporal, que va creciendo en función de los fotogramas que se han ido generando. Cuanto más largo sea el vÃdeo, y cuanto mayor sea la tasa de fotogramas por segundo, más cantidad de fotogramas se habrán generado y más grande será el contexto temporal.
Un mayor contexto temporal implica un mayor consumo de memoria gráfica, y establece unos requisitos mÃnimos para funcionar de forma eficiente. Actualmente ese mÃnimo está fijado en 12 GB de memoria gráfica, pero dos investigadores de la Universidad de Standford han conseguido un importante punto de inflexión con FramePack, una arquitectura de red neural que nos permitirá generar vÃdeo por IA con solo 6 GB de memoria gráfica.
FramePack utiliza un modelo de 13.000 millones de parámetros, una cifra impresionante si tenemos en cuenta que está diseñado para funcionar con solo 6 GB de memoria gráfica. Para generar vÃdeos por IA con tan poca VRAM recurre a un truco para lidiar con el tema del contexto temporal, la compresión de los fotogramas de entrada.
El modelo no se limita a comprimir fotogramas de manera indiscriminada, sino que los comprime dependiendo de la importancia que tenga cada uno en un contexto de duración fija. De esta manera es posible reducir notablemente el consumo de memoria gráfica con independencia de la duración del vÃdeo generado.
Es una innovación importante, porque permite al modelo procesar de una manera más eficiente miles de fotogramas incluso en GPUs con bajos recursos, y también en gráficas para portátiles. La generación de vÃdeo por IA en portátiles y en equipos modestos es una realidad gracias a FramePack, un modelo que también permite el entrenamiento con lotes de un tamaño comparable a los utilizados en los modelos de generación de imágenes.
Este modelo está disponible en GitHub, y cuenta con una interfaz gráfica de usuario bastante intuitiva y fácil de usar, ya que permite subir imágenes introducir comandos y también obtener una vista previa de los fotogramas generados.
El rendimiento de este modelo escala con la potencia de la tarjeta gráfica que tengamos, y también con la cantidad de memoria gráfica disponible. Por ejemplo, con una GeForce RTX 4090 se genera un fotograma cada 2,5 segundos, mientras que con una GeForce RTX 3060 de portátil (6 GB de VRAM) el tiempo de generación por fotograma se multiplica por 8, es decir, tarda 20 segundos en generar cada fotograma.
Sabemos que este modelo es compatible con las GeForce RTX 30, GeForce RTX 40 y GeForce RTX 50, y que utiliza instrucciones FP16 y BF16. No ha sido probado con generaciones anteriores, como las GeForce RTX 20, y no sabemos si algún dÃa recibirá soporte de tarjetas gráficas AMD Radeon e Intel Arc.
Por el sistema operativo no tendrás que preocuparte, porque FramePack funciona sin problemas en diferentes sistemas operativos, incluido Linux. Si cumples con los requisitos mÃnimos y tienes, por ejemplo, una GeForce RTX 3050 de 6 GB, podrás utilizar este modelo de 13.000 millones de parámetros para generar vÃdeos de 1 minuto a 30 FPS.
Microsoft Copilot ya es capaz de crear presentaciones en PowerPoint
Editor de la publicación on-line lÃder en audiencia dentro de la información tecnológica para profesionales. Al dÃa de todas las tecnologÃas que pueden marcar tendencia en la industria.
Microsoft Copilot ya es capaz de crear presentaciones en PowerPoint
ChatGPT está encantado de ayudarte. Y de halagarte. Y de decirte lo increÃble que eres. Siempre.
Claude muestra su propio sistema de valores
Microsoft BitNet, una IA revolucionaria que funciona sin GPU y con solo 400 MB de memoria
Meta bloquea Apple Intelligence en sus apps
ChatGPT revela ubicaciones con solo una imagen
Windows 11 va lento: cómo resolverlo y cómo mejorar el rendimiento
GEEKOM Mini Air12 en oferta, un mini PC muy económico con un descuento del 40%
Windows 7 Elite Edition, ¿por qué no puede ser asà Windows 11?
GeForce RTX 5060 Ti y GeForce RTX 5060, especificaciones finales, rendimiento y precio