PESQUISA

PESQUISA

Apresentando a Conversão de Voz para Canto Sem Exemplos

9 de dezembro de 2024

por Anastasiia Herus

Em nossa missão de fornecer as ferramentas mais poderosas para criadores de música, a equipe de Pesquisa do Kits.AI desenvolveu um dos primeiros modelos de Conversão de Voz de Canto Zero-Shot (ZS-SVC) do mundo. Este modelo permite converter áudio na voz de um cantor alvo sem a necessidade de treinamento.

Entrada

0:00/1:34

Referência do Cantor Alvo

0:00/1:34

Saída

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

Arquitetura e Dados

A arquitetura do modelo zero-shot herda vários componentes centrais da arquitetura KVC, incluindo codificação de conteúdo, codificação de tom e recuperação. A principal adição é um módulo de codificador de cantor, que calcula uma incorporação de cantor a partir do arquivo de referência. A incorporação do cantor é uma representação desentrelaçada das vocais do cantor-alvo que pode então ser usada para conversão.

Recuperação Fonêmica para Preservação de Acento

Além de preservar as qualidades timbrais do falante de referência, o modelo ZS-SVC também utiliza um sistema de recuperação fonêmica. Semelhante à recuperação no KVC, isso ajuda a preservar o sotaque do falante-alvo, sem sobrecorreções que possam levar a erros de pronúncia.

Dados

Otimizar para a qualidade dos dados em vez da quantidade tem um grande impacto nos resultados do canto de zero-shot. O modelo ZS-SVC foi treinado com o conjunto de dados vocais gravados em estúdio licenciados da Kits. Todos os dados são licenciados diretamente dos artistas e pré-processados à mão por engenheiros de áudio para alcançar um nível de qualidade de lançamento.

Olhando para frente

ZS-SVC alimenta nosso novo recurso de Clonagem de Voz Instantânea (IVC), atualmente disponível para usuários beta do Kits. Mais recursos usando ZS-SVC se tornarão disponíveis para a comunidade mais ampla do Kits ao longo do tempo.

Estamos empolgados para ver como os criadores de música usarão este novo modelo para impulsionar seu processo criativo!