OpenAI solo necesita 15 segundos de audio para clonarte la voz

OpenAI, quien se ha hecho famosa por crear el chatbot más usado del mundo llamado ChatGPT, ha anunciado que su tecnología de clonación de voz requiere solo 15 segundos de material de audio para reproducir la voz de alguien.

ChatGPT DESCARGAR

En un post publicado en su sitio web, OpenAI compartió un avance a pequeña escala de un modelo llamado Voice Engine, que lleva desarrollando desde finales de 2022.

Voice Engine funciona alimentándolo con un mínimo de 15 segundos de material hablado. A continuación, el usuario puede introducir texto para crear lo que OpenAI describe como un habla “emotiva y realista” que “se asemeja mucho al hablante original”.

Un lanzamiento gradual y medido: potenciales peligros

OpenAI insiste en que está adoptando un “enfoque cauteloso e informado para un lanzamiento más amplio debido al potencial de uso indebido de la voz sintética”, y añade que quiere “iniciar un diálogo sobre el despliegue responsable de las voces sintéticas, y cómo la sociedad puede adaptarse a estas nuevas capacidades”.

Y añadía: “Basándonos en estas conversaciones y en los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a escala y cómo hacerlo.”

Uno de los usos indebidos a los que se refiere OpenAI es una estafa que algunos delincuentes ya están llevando a cabo utilizando una tecnología similar que lleva algún tiempo a disposición del público: consiste en clonar una voz y luego llamar a un amigo o familiar de esa persona para engañarle y que entregue dinero en efectivo a través de una transferencia bancaria.

También se teme que esta tecnología pueda utilizarse en las próximas elecciones presidenciales, como puso de manifiesto un reciente incidente de gran repercusión en el que una llamada automática con un clon de la voz del Presidente Joe Biden pedía a la gente que no votara en las primarias de enero en New Hampshire.

We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ
— OpenAI (@OpenAI) March 29, 2024

El lado brillante de la moneda

En cuanto a los usos más positivos de la tecnología, OpenAI sugiere que podría utilizarse para ayudar a leer a personas que no saben leer y a niños mediante voces emotivas y naturales “que representen a una gama de hablantes más amplia que la que es posible con voces preestablecidas”, así como para traducir al instante vídeos y podcasts, algo que Spotify ya está probando.

También podría utilizarse para ayudar a los pacientes que pierden gradualmente la voz por enfermedad a seguir comunicándose utilizando lo que suena como su propia voz.

OpenAI presenta en su sitio web algunos ejemplos del audio generado por la IA y del audio de referencia, y estamos seguros de que estarás de acuerdo en que son extraordinarios… y terroríficos.

OpenAI solo necesita 15 segundos de audio para clonarte la voz

Un lanzamiento gradual y medido: potenciales peligros

El lado brillante de la moneda

Lo último de Chema Carvajal Sarabia

Ahora puedes descargar dos aplicaciones al mismo tiempo desde Google Play Store

Discord banea varias cuentas que robaron mensajes a 620 millones de usuarios

El ratón perfecto para el gaming es de Corsair y ahora lo tienes con un 50% de descuento en Amazon

¿Buscas una RTX 4090 de Nvidia? Mucho cuidado con esta estafa

Escape From Tarkov recula tras la reacción de su público

Disney acaba de sorprender al mundo con el tráiler de Mufasa: El Rey León