Puede que las Inteligencias Artificiales tengan fecha de caducidad, pero la industria continúa evolucionando con decenas de iniciativas que son cada vez más increíbles. La última de estas iniciativas es VALL-E, una Inteligencia Artificial presentada por Microsoft que puede replicar e imitar cualquier voz humana tras apenas unos segundos de escucha.
Lo más curioso de esta innovadora tecnología es que no es la primera vez que una empresa crea una IA que sea capaz de imitar la voz humana. Sin embargo, los anteriores intentos han demostrado cuán difícil y lento es el desarrollo de una IA de estas características. El problema principal se debe a que estos sistemas tardaban demasiado en aprender a diferenciar e interpretar cada voz individual, sin mencionar las complejidades vocales de cada persona en su forma de hablar.
Microsoft ha dado un paso de gigante con esta tecnología. Vall-E ha asombrado a toda la comunidad tecnológica, ya que es capaz de replicar el habla humana en un tiempo increíblemente corto. De hecho, tan solo necesita unos segundos. De promedio, Vall-E tan solo necesita unos 3 segundos para replicar la voz, entonación y características vocales generales de alguien. Es, por tanto, el tiempo más corto que ha necesitado nunca una IA de este estilo para lograr resultados satisfactorios.
Si te parece interesante, los investigadores de la Universidad de Cornell han publicado recientemente un artículo sobre cómo funciona Vall-E. El artículo también desglosa todas las diferencias entre Vall-E y otros sintetizadores de texto a voz. Os dejamos con un extracto del documento muy interesante:
“Los datos a gran escala rastreados desde Internet no pueden cumplir con los requisito y siempre conducen a una degradación del rendimiento. Debido a que los datos de entrenamiento son relativamente pequeños, los sistemas TTS actuales aún sufren una mala generalización. La similitud del hablante y la naturalidad del habla disminuyen drásticamente para los hablantes invisibles en el escenario de tiro cero.
VALL-E supera significativamente al sistema TTS de última generación [Casanova et al., 2022b] en términos de naturalidad del habla y similitud del hablante, con una puntuación de opción media comparativa (CMOS) de +0,12 y una similitud de +0,93 Mejora de la puntuación de opción media (SMOS) en LibriSpeech. VALL-E también supera la línea de base en VCTK con mejoras de +0.11 SMOS y +0.23 CMOS”.
En términos simples, los inteligentes investigadores de la Universidad de Cornell dicen que Microsoft ha encontrado una forma de hacer algo que se pensaba que era relativamente imposible.