¿Cómo imitar la voz de otra persona?
Aplicación de imitación de voz
La tecnología ha hecho posible modular los datos de audio. La razón por la que puedes querer hacer esto podría ser para proteger tu identidad durante situaciones delicadas o simplemente para gastar una broma a tus amigos o incluso a desconocidos sólo por diversión.
Su modo en tiempo real le permite cambiar su voz durante las llamadas en directo. O si quieres modificar una voz grabada, simplemente sube el archivo y utiliza las herramientas disponibles para hacer los cambios que quieras.
No sólo puedes ajustar ligeramente el sonido de tu voz natural, sino que el software también viene con una biblioteca de voces incorporada. Esto te proporciona un montón de opciones para elegir. Puedes seleccionar una voz masculina, femenina, robótica e incluso una voz alienígena. Encontrarás estas opciones en la parte izquierda del panel principal del software.
Este es otro de los favoritos de los usuarios. No sólo puedes cambiar tu sonido mientras haces una llamada en directo, sino que también puedes editar archivos de audio y vídeo pregrabados. Puedes hacer que suene como un hombre, una mujer, un niño, etc. Incluso tiene la posibilidad de cambiar entre estas opciones en medio de una llamada en directo.
Copiar la voz de una persona
La inteligencia artificial está haciendo que el habla humana sea tan maleable y replicable como los píxeles. Hoy, una empresa canadiense de inteligencia artificial llamada Lyrebird ha presentado su primer producto: un conjunto de algoritmos que, según la empresa, puede clonar la voz de cualquier persona con sólo escuchar un minuto de audio de muestra.
Pero mientras que el Proyecto VoCo requiere al menos 20 minutos de audio de muestra antes de poder imitar una voz, Lyrebird reduce estos requisitos a sólo 60 segundos. Los resultados no son indistinguibles del habla humana, pero son impresionantes, y sin duda mejorarán con el tiempo. A continuación puedes escuchar las voces sintetizadas de Donald Trump, Barack Obama y Hillary Clinton hablando de la startup:
Lyrebird dice que sus algoritmos también pueden infundir emoción al discurso que crea, permitiendo a los clientes hacer que las voces suenen enfadadas, simpáticas o estresadas. El discurso resultante puede tener una amplia gama de usos, dice Lyrebird, entre ellos «la lectura de audiolibros con voces famosas, para dispositivos conectados de cualquier tipo, para la síntesis del habla para personas con discapacidad, para películas de animación o para estudios de videojuegos». Se necesita bastante potencia de cálculo para generar una impresión de voz, pero una vez hecha, el discurso es fácil de hacer: Lyrebird puede crear mil frases en menos de medio segundo.
¿Por qué puedo imitar la voz de otra persona?
Publicidad: Todos hemos visto a un cambiaformas. Y todos sabemos que cuando un metamorfo se transforma en otra entidad, suele asumir la voz de la entidad que está copiando. Es decir, la imitación perfecta de la voz de otro personaje es un poder secundario obligatorio para cualquiera que cambie su forma física.
Sin embargo, para ser un Cambiador de Voz hay que distinguir entre alguien que cambia su forma física y alguien que simplemente cambia su voz. Es decir, mientras que cualquier cambiaformas corriente puede copiar la voz de un sujeto, para ser un Cambiador de Voz, tienes que copiar perfectamente una voz sin cambiar tu cuerpo.
Es importante darse cuenta de que el Cambiador de Voz crea una imitación perfecta e impecable – no una que es simplemente diferente a la suya. En otras palabras, si Bob está molesto con Alice, y decide imitarla con su voz de chica más odiosa, eso no es un Voice Changeling. Sin embargo, si la imitación de Bob de Alice requiere una voz de la actriz que interpreta a Alice, entonces el tropo está en juego. Como regla general, sólo se trata de un Voice Changeling si hay un cambio momentáneo de actores de voz. Ese es el tipo de habilidad del que estamos hablando.
Comentarios
Un primer apunte: la mayoría de los sistemas modernos de conversión de texto en voz, como el de AT&T que has enlazado, utilizan la síntesis de voz concatenada. Esta técnica utiliza una gran base de datos de grabaciones de la voz de una persona pronunciando una larga colección de frases, seleccionadas de forma que estén presentes el mayor número de combinaciones de fonemas. La síntesis de una frase puede hacerse simplemente encadenando segmentos de este corpus; lo difícil es hacer que el encadenamiento sea fluido y expresivo.
Afortunadamente, hay otras técnicas que pueden funcionar con menos supervisión y menos datos. El campo de la síntesis del habla que se interesa por «fingir» o «imitar» una voz de una grabación se conoce como conversión de voz. Se tiene una grabación A1 del locutor A diciendo la frase 1, y una grabación B2 del locutor B diciendo la frase 2, se pretende producir una grabación A2 del locutor A diciendo la frase 2, posiblemente con acceso a una grabación B1 del locutor B reproduciendo con su voz el mismo enunciado del locutor objetivo.