NVIDIA anuncia Fugatto, su nueva IA para crear voces, música y efectos a partir de texto

«Fugatto» es un nuevo modelo de inteligencia artificial recientemente presentado por NVIDIA que permite la creación y modificación de sonidos, música y voces utilizando indicaciones textuales o combinaciones de texto y audio. Esta herramienta fue descrita como una «navaja suiza para el sonido» y ofrece capacidades de generación y transformación de audio que abren nuevas posibilidades en campos como la producción musical, los videojuegos y la educación.

Desarrollado por un equipo internacional de investigadores, Fugatto emplea 2,5 mil millones de parámetros y fue entrenado con GPU NVIDIA H100 Tensor Core. El modelo tiene la capacidad de crear desde piezas musicales hasta modificaciones precisas de voces, como ajustar el acento o el tono emocional. Incluso puede generar sonidos inéditos, como instrumentos que imitan sonidos de animales, gracias a la técnica de combinación de instrucciones conocida como ComposableART.

Innovaciones y usos de Fugatto
Entre los empleos de este modelo de IA, un ejemplo es el campo de los videojuegos. Desarrolladores pueden crear efectos de sonido dinámicos que se adapten a las acciones del jugador. También se pueden crear materiales personalizados para el aprendizaje de idiomas con cualquier voz que el usuario elija, ya sea de un ser querido o un personaje ficticio. Y en la producción musical, este modelo facilita la creación de prototipos y ediciones rápidas, explorando diferentes estilos, voces e instrumentos en un tiempo reducido.

Otra de las capacidades más llamativas de Fugatto es la creación de paisajes sonoros en evolución, como una tormenta que avanza con truenos y se transforma en un amanecer con el canto de los pájaros. Este nivel de control detallado en el desarrollo de sonidos ofrece una herramienta inédita para artistas, educadores y creadores de contenido.

El proyecto, que requirió más de un año de desarrollo, combinó millones de muestras de audio y datos para entrenar al modelo en una amplia variedad de tareas. Aunque NVIDIA no ha anunciado si Fugatto estará disponible para el público general, sólo el hecho de su presentación posiciona a la compañía en un plano de ‘referente’ en el ámbito de la inteligencia artificial generativa aplicada al audio.

¿Llegará Fugatto a los usuarios?
La falta de precisión sobre una hipotética disponibilidad pública de Fugatto seguramente no sea por un capricho de NVIDIA. El uso de la inteligencia artificial generativa en la industria musical ha generado bastante polémica en los últimos tiempos. Este año, más de 200 bandas y solistas lanzaron una carta acusando a la IA de «devaluar la música», y varios sellos instaron a grandes tecnológicas a que no usen la música de sus artistas para entrenar su IA. Las discográficas también le han declarado la guerra a apps como Udio y Suno AI por presunta violación de derechos de autor.

Pese a que NVIDIA ha entrenado a Fugatto con datos de código abierto, se desconoce si puede generar música que sea similar a la de artistas ya existentes, o voces que se parezcan peligrosamente a la de personas reales. No olvidemos que Google anunció MusicLM, una inteligencia artificial que puede producir canciones a partir de texto, pero no la lanzó al público debido a que no podía resolver el drama del plagio. Meta, en tanto, anunció meses atrás una suite de herramientas de IA llamada AudioCraft, que persigue la misma finalidad.