Apresentando a Conversão de Voz para Canto Sem Exemplos
9 de dezembro de 2024
por Anastasiia Herus
Em nossa missão de fornecer as ferramentas mais poderosas para criadores de música, a equipe de Pesquisa do Kits.AI desenvolveu um dos primeiros modelos de Conversão de Voz de Canto Zero-Shot (ZS-SVC) do mundo. Este modelo permite converter áudio na voz de um cantor alvo sem a necessidade de treinamento.
Entrada
Referência do Cantor Alvo
Saída
Arquitetura e Dados
A arquitetura do modelo zero-shot herda vários componentes centrais da arquitetura KVC, incluindo codificação de conteúdo, codificação de tom e recuperação. A principal adição é um módulo de codificador de cantor, que calcula uma incorporação de cantor a partir do arquivo de referência. A incorporação do cantor é uma representação desentrelaçada das vocais do cantor-alvo que pode então ser usada para conversão.
Recuperação Fonêmica para Preservação de Acento
Além de preservar as qualidades timbrais do falante de referência, o modelo ZS-SVC também utiliza um sistema de recuperação fonêmica. Semelhante à recuperação no KVC, isso ajuda a preservar o sotaque do falante-alvo, sem sobrecorreções que possam levar a erros de pronúncia.
Dados
Otimizar para a qualidade dos dados em vez da quantidade tem um grande impacto nos resultados do canto de zero-shot. O modelo ZS-SVC foi treinado com o conjunto de dados vocais gravados em estúdio licenciados da Kits. Todos os dados são licenciados diretamente dos artistas e pré-processados à mão por engenheiros de áudio para alcançar um nível de qualidade de lançamento.
Olhando para frente
ZS-SVC alimenta nosso novo recurso de Clonagem de Voz Instantânea (IVC), atualmente disponível para usuários beta do Kits. Mais recursos usando ZS-SVC se tornarão disponíveis para a comunidade mais ampla do Kits ao longo do tempo.
Estamos empolgados para ver como os criadores de música usarão este novo modelo para impulsionar seu processo criativo!