Nova ferramenta de IA da Microsoft pode imitar vozes com 3 segundos de áudio

microsoft deepfake ai

Apesar de quão longe chegaram os avanços na geração de vídeo AI, ainda requer um pouco de material de origem, como headshots de vários ângulos ou filmagens de vídeo, para alguém criar uma versão deepfaked convincente de sua imagem. Quando se trata de fingir sua voz, é uma história diferente, pois pesquisadores da Microsoft revelou recentemente uma nova ferramenta de IA que pode simular a voz de alguém usando apenas uma amostra de três segundos deles conversando.

A nova ferramenta, um “modelo de linguagem de codec neural” chamado VALL-E, é construída sobre Tecnologia de compressão de áudio EnCodec da Meta, revelado no final do ano passado, que usa IA para compactar áudio com qualidade melhor do que CD para taxas de dados 10 vezes menores do que arquivos MP3, sem perda perceptível de qualidade. A Meta imaginou o EnCodec como uma forma de melhorar a qualidade das chamadas telefônicas em áreas com cobertura celular irregular ou como uma forma de reduzir as demandas de largura de banda para serviços de streaming de música, mas a Microsoft está aproveitando a tecnologia como uma forma de tornar o som de síntese de texto para fala mais realista com base em uma amostra de fonte muito limitada.

Os sistemas atuais de texto para fala são capazes de produzir vozes com sons muito realistas, e é por isso que os assistentes inteligentes soam tão autênticos, apesar de suas respostas verbais serem geradas na hora. Mas eles exigem dados de treinamento de alta qualidade e muito limpos, que geralmente são capturados em um estúdio de gravação com equipamento profissional. A abordagem da Microsoft torna o VALL-E capaz de simular a voz de quase qualquer pessoa sem que ela passe semanas em um estúdio. Em vez disso, a ferramenta foi treinada usando Conjunto de dados Libri-light da Metaque contém 60.000 horas de fala em inglês gravadas de mais de 7.000 falantes únicos, “extraídas e processadas de LibriVoxName audiolivros”, que são todos de domínio público.

A Microsoft compartilhou um extensa coleção de amostras geradas pelo VALL-E para que você possa ouvir por si mesmo como seus recursos de simulação de voz são capazes, mas os resultados atualmente são uma mistura. A ferramenta ocasionalmente tem problemas para recriar sotaques, incluindo até mesmo os sutis de amostras de origem onde o falante soa irlandês, e sua capacidade de mudar a emoção de uma determinada frase às vezes é risível. Mas, na maioria das vezes, as amostras geradas pelo VALL-E soam naturais, quentes e são quase impossíveis de distinguir dos alto-falantes originais nos clipes de origem de três segundos.

Em sua forma atual, formado em Libri-light, VALL-E limita-se a simular fala em inglês e, embora seu desempenho ainda não seja perfeito, sem dúvida melhorará à medida que seu conjunto de dados de amostra for expandido. No entanto, caberá aos pesquisadores da Microsoft melhorar o VALL-E, já que a equipe não está liberando o código-fonte da ferramenta. Em um trabalho de pesquisa lançado recentemente detalhando o desenvolvimento do VALL-E, seus criadores entendem perfeitamente os riscos que ele representa:

“Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, ele pode apresentar riscos potenciais de uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico. Para mitigar tais riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E. Nós também vamos colocar Princípios de IA da Microsoft em prática ao desenvolver os modelos.”

.

Leave a Reply

Your email address will not be published. Required fields are marked *