No ha pasado ni siquiera un mes desde que DeepSeek fuera presentado al mundo, y China nos quiere sorprender nuevamente con otra inteligencia artificial que apunta a ser revolucionaria.
Esta vez, se trata de Goku AI, desarrollada por ByteDance, la empresa matriz de TikTok quien ha presentado su última innovación en inteligencia artificial
Goku AI, cuyo nombre claramente es un homenaje al legendario personaje del manga y el anime japonés, es una inteligencia artificial que, en pocas palabras, puede generar vídeos a partir de texto. Las diferencias claves de este modelo con otros que tienen la misma función es que los resultados de Goku AI son de una gran calidad, y además, su desarrollo es de código abierto, lo que significa que está disponible para todos directamente en Github.
Este nuevo sistema está diseñado para transformar la creación de contenido audiovisual, permitiendo generar imágenes y videos a partir de descripciones textuales con una calidad sorprendente.
Goku AI es un modelo de inteligencia artificial que está entrenado para generar vídeo a partir de texto, incluyendo vídeos realistas que muestran a personas interactuando con objetos, animales y seres de fantasía, si así lo describe el prompt. La calidad de sus resultados es sorprendente, y sus responsables quieren que esta IA sea revolucionaria para las redes sociales y para el mundo de la publicidad y el marketing.
Goku IA se basa en avanzadas arquitecturas de transformers y en una novedosa técnica denominada «Rectified Flow», que optimiza la interacción entre los distintos elementos visuales. Por ejemplo, Goku AI no solo puede crear vídeo a partir de comandos de texto, sino también añadir movimiento y «dar vida» a una imagen. Esto permite, por ejemplo, darle a la inteligencia artificial una imagen de una persona con un producto en las manos, y a partir de ella crear un breve anuncio promocionando este producto. Es por esto que hablan de innovación y revolución en materia de publicidad.
Un entrenamiento masivo para resultados excepcionales
Para alcanzar este nivel de precisión, ByteDance entrenó a Goku IA con una base de datos de gran envergadura: aproximadamente 160 millones de pares imagen-texto y 36 millones de pares video-texto. Este extenso y bien curado conjunto de datos permite que la inteligencia artificial no solo genere imágenes impactantes, sino también videos dinámicos que capturan la esencia de cualquier descripción.
Aplicaciones en el mundo real
Entre las aplicaciones más prometedoras de Goku IA se encuentran la publicidad y la creación de contenido para redes sociales. La capacidad de transformar imágenes estáticas en secuencias de video realistas abre la puerta a la producción de anuncios sin necesidad de actores o costosos equipos de filmación, lo que podría reducir significativamente los costos de producción. Aquí vemos los ejemplos hechos con esta IA:
El funcionamiento de esta inteligencia artificial se basa en el flujo, alimentado por un sistema de RTF (es decir, un transformador de flujo rectificado), y la aplicación de diferentes procesos y tecnologías para reducir el ruido de las imágenes, mejorar la interpolación de las imágenes y fotogramas, desarrollar transiciones fluidas y realistas, y un renderizado neural para mejorar el movimiento y la fluidez de los objetos en el vídeo.
Un salto hacia el futuro del contenido digital
Con un destacado desempeño en benchmarks tecnológicos –por ejemplo, alcanzando un 84.85 en VBench para generación de video– Goku IA marca un hito en el desarrollo de modelos de generación audiovisual. La apuesta de ByteDance por la innovación demuestra una vez más su compromiso con la transformación digital y el impulso de nuevas herramientas que democratizan la creación de contenido.
En resumen, Goku IA no solo representa un avance técnico en el campo de la inteligencia artificial, sino que también promete revolucionar la forma en que se produce y consume contenido en la era digital.
Deja una respuesta