A nova IA da Microsoft pode simular a voz de qualquer pessoa com 3 segundos de áudio

Uma imagem gerada por IA da silhueta de uma pessoa.
Prolongar / Uma imagem gerada por IA da silhueta de uma pessoa.

Ars-Technica

Na quinta-feira, pesquisadores da Microsoft anunciaram um novo modelo de IA de conversão de texto em fala chamado VALL-E que pode simular de perto a voz de uma pessoa quando recebe uma amostra de áudio de três segundos. Depois de aprender uma voz específica, o VALL-E pode sintetizar o áudio dessa pessoa dizendo qualquer coisa – e fazê-lo de uma forma que tente preservar o tom emocional do locutor.

Seus criadores especulam que o VALL-E pode ser usado para aplicativos de conversão de texto em fala de alta qualidade, edição de fala em que uma gravação de uma pessoa pode ser editada e alterada de uma transcrição de texto (fazendo-a dizer algo que originalmente não disse), e criação de conteúdo de áudio quando combinado com outros modelos generativos de IA, como GPT-3.

A Microsoft chama VALL-E de “modelo de linguagem de codec neural” e se baseia em uma tecnologia chamada EnCodec, qual Meta anunciou em outubro de 2022. Ao contrário de outros métodos de conversão de texto em fala que normalmente sintetizam a fala manipulando formas de onda, o VALL-E gera códigos de codec de áudio discretos a partir de prompts de texto e acústicos. Ele basicamente analisa como uma pessoa soa, divide essa informação em componentes discretos (chamados “tokens”) graças ao EnCodec e usa dados de treinamento para combinar o que “sabe” sobre como essa voz soaria se falasse outras frases fora dos três -segunda amostra. Ou, como a Microsoft coloca no papel VALL-E:

Para sintetizar a fala personalizada (por exemplo, TTS zero-shot), o VALL-E gera os tokens acústicos correspondentes condicionados aos tokens acústicos da gravação registrada de 3 segundos e ao prompt de fonema, que restringem as informações do locutor e do conteúdo, respectivamente. Finalmente, os tokens acústicos gerados são usados ​​para sintetizar a forma de onda final com o decodificador codec neural correspondente.

A Microsoft treinou os recursos de síntese de fala do VALL-E em uma biblioteca de áudio, montada pela Meta, chamada LibriLightName. Ele contém 60.000 horas de fala em inglês de mais de 7.000 falantes, a maioria extraída de LibriVoxName livros de áudio de domínio público. Para VALL-E gerar um bom resultado, a voz na amostra de três segundos deve corresponder de perto a uma voz nos dados de treinamento.

No VALL-E site de exemplo, a Microsoft fornece dezenas de exemplos de áudio do modelo de IA em ação. Entre as amostras, o “Speaker Prompt” é o áudio de três segundos fornecido ao VALL-E que ele deve imitar. O “Ground Truth” é uma gravação pré-existente do mesmo falante dizendo uma frase específica para fins de comparação (mais ou menos como o “controle” no experimento). A “linha de base” é um exemplo de síntese fornecido por um método convencional de síntese de texto para fala, e a amostra “VALL-E” é a saída do modelo VALL-E.

Um diagrama de blocos do VALL-E fornecido por pesquisadores da Microsoft.
Prolongar / Um diagrama de blocos do VALL-E fornecido por pesquisadores da Microsoft.

Microsoft

Ao usar o VALL-E para gerar esses resultados, os pesquisadores alimentaram apenas a amostra de três segundos “Speaker Prompt” e uma sequência de texto (o que eles queriam que a voz dissesse) no VALL-E. Portanto, compare a amostra “Ground Truth” com a amostra “VALL-E”. Em alguns casos, as duas amostras são muito próximas. Alguns resultados do VALL-E parecem gerados por computador, mas outros podem ser confundidos com a fala de um humano, que é o objetivo do modelo.

Além de preservar o timbre vocal e o tom emocional do alto-falante, o VALL-E também pode imitar o “ambiente acústico” do áudio de amostra. Por exemplo, se a amostra vier de uma chamada telefônica, a saída de áudio simulará as propriedades acústicas e de frequência de uma chamada telefônica em sua saída sintetizada (essa é uma maneira sofisticada de dizer que também soará como uma chamada telefônica). E da Microsoft amostras (na seção “Síntese da Diversidade”) demonstram que o VALL-E pode gerar variações no tom de voz alterando a semente aleatória usada no processo de geração.

Talvez devido à capacidade do VALL-E de alimentar travessuras e enganos, a Microsoft não forneceu o código VALL-E para outros experimentarem, portanto, não pudemos testar os recursos do VALL-E. Os pesquisadores parecem estar cientes do potencial dano social que essa tecnologia pode trazer. Para a conclusão do artigo, eles escrevem:

“Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, ele pode trazer riscos potenciais de uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico. Para mitigar esses riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E. Princípios de IA da Microsoft em prática ao desenvolver os modelos.”

Leave a Reply

Your email address will not be published. Required fields are marked *