Esta nova IA pode simular sua voz a partir de apenas 3 segundos de áudio

Novo modelo de linguagem da Microsoft Vall-E é supostamente capaz de imitar qualquer voz usando apenas uma gravação de amostra de três segundos.

A ferramenta AI lançada recentemente foi testada em mais de 60.000 horas de dados de fala em inglês. Os pesquisadores disseram em um artigo da Universidade de Cornell que poderia replicar as emoções e o tom de um orador.

Essas descobertas foram aparentemente verdadeiras mesmo ao criar uma gravação de palavras que o orador original nunca disse.

“O Vall-E apresenta recursos de aprendizado no contexto e pode ser usado para sintetizar fala personalizada de alta qualidade com apenas uma gravação registrada de 3 segundos de um alto-falante invisível como um prompt acústico. Os resultados da experiência mostram que Vall-E supera significativamente o estado-da-arte zero-shot [text to speech] sistema em termos de naturalidade da fala e similaridade do locutor”, escreveram os autores. “Além disso, descobrimos que o Vall-E pode preservar a emoção do locutor e o ambiente acústico do prompt acústico em síntese.”

O SPYWARE ANDROID ATACA NOVAMENTE ATINGINDO INSTITUIÇÕES FINANCEIRAS E SEU DINHEIRO

A sinalização do estande da Microsoft Corporation é exibida na CES 2023 no Las Vegas Convention Center em 6 de janeiro de 2023, em Las Vegas, Nevada.

A sinalização do estande da Microsoft Corporation é exibida na CES 2023 no Las Vegas Convention Center em 6 de janeiro de 2023, em Las Vegas, Nevada.
((Foto de David Becker/Getty Images))

As amostras de Vall-E compartilhados no GitHub são estranhamente semelhantes aos prompts do alto-falante, embora variem em qualidade.

Em uma frase sintetizada do banco de dados Emotional Voices, Vall-E diz sonolenta a frase: “Temos que reduzir o número de sacolas plásticas”.

PERSONAGENS DA DISNEY CHEGANDO À AMAZON ALEXA COM O COMANDO ‘HEY DISNEY’

O novo modelo de linguagem da Microsoft, Vall-E, é supostamente capaz de imitar qualquer voz usando apenas uma gravação de amostra de três segundos.

O novo modelo de linguagem da Microsoft, Vall-E, é supostamente capaz de imitar qualquer voz usando apenas uma gravação de amostra de três segundos.
(iStock)

No entanto, a pesquisa em IA de conversão de texto em fala vem com um aviso.

“Como o Vall-E pode sintetizar a fala que mantém a identidade do falante, pode carregam riscos potenciais no uso indevido do modelo, como falsificar a identificação de voz ou representar um locutor específico”, dizem os pesquisadores nessa página da web. “Conduzimos os experimentos sob a suposição de que o usuário concorda em ser o locutor-alvo na síntese de fala. Quando o modelo é generalizado para falantes invisíveis no mundo real, ele deve incluir um protocolo para garantir que o falante aprove o uso de sua voz e um modelo de detecção de fala sintetizada.”

Sinal corporativo da Microsoft Corp no Microsoft India Development Center, em Noida, Índia, na sexta-feira, 11 de novembro de 2022.

Sinal corporativo da Microsoft Corp no Microsoft India Development Center, em Noida, Índia, na sexta-feira, 11 de novembro de 2022.
(Fotógrafo: Prakash Singh/Bloomberg via Getty Images)

CLIQUE AQUI PARA BAIXAR O APLICATIVO FOX NEWS

No momento, o Vall-E, que a Microsoft chama de “modelo de linguagem de codec neural”, não está disponível ao público.

Leave a Reply

Your email address will not be published. Required fields are marked *