Inteligência Artificial da Microsoft imita a voz e a fala de qualquer pessoa ouvindo a voz original por apenas 3 segundos
Os engenheiros da Microsoft desenvolveram o ‘VALL-E’, uma nova ferramenta de inteligência artificial (IA), que pode simular a voz de uma pessoa depois de ouvi-la por apenas 3 segundos . O aplicativo é baseado em uma tecnologia de compressão de áudio chamada ‘EnCodec’, que foi relataram seus autores em uma publicação pendente de revisão por pares.
A Microsoft aproveitou a tecnologia EnCodec como uma forma de tornar realista o som da síntese de texto para fala (TTS), com base em uma amostra de origem muito limitada. Durante a fase de treinamento da IA eles utilizaram 60.000 horas de conversação em inglês , o que é centenas de vezes maior que os sistemas existentes.
Vantagens
De acordo com seus criadores, o VALL-E exibe recursos de aprendizado no contexto e pode ser usado para sintetizar uma voz personalizada de alta qualidade com apenas uma gravação gravada de 3 segundos. Os resultados do experimento mostram que o VALL-E supera significativamente os sistemas TTS de acionamento zero (não treinados com a voz que eles simulam) de última geração, em termos de naturalidade da fala e similaridade do locutor. Além disso, eles argumentam que o VALL-E poderia preservar a emoção do locutor e o ambiente acústico na mensagem de fala sintetizada em texto.
deficiências
Apesar de suas conquistas notáveis, os pesquisadores da Microsoft chamaram a atenção para alguns problemas com a ferramenta. Em particular, eles criticaram que algumas palavras podem ser confusas, perdidas ou duplicadas na síntese de fala. Outro aspecto observado foi que ainda não consegue abranger a voz de todos, principalmente dos falantes com sotaque . Eles também argumentaram que a diversidade de estilos de fala não é suficiente, já que o LibriLight (o banco de dados que eles usaram para o treinamento) é um conjunto de dados de audiobook, no qual a maioria dos enunciados está no estilo de leitura.