Preços

Aplicativo de desktop

Pesquisa

Blog

Select Language

Apresentando a Conversão de Voz para Canto Sem Exemplos

9 de dezembro de 2024

por Anastasiia Herus

Em nossa missão de fornecer as ferramentas mais poderosas para criadores de música, a equipe de Pesquisa do Kits.AI desenvolveu um dos primeiros modelos de Conversão de Voz de Canto Zero-Shot (ZS-SVC) do mundo. Este modelo permite converter áudio na voz de um cantor alvo sem a necessidade de treinamento.

Entrada

0:00/1:34

Referência do Cantor Alvo

0:00/1:34

Saída

0:00/1:34

Arquitetura e Dados

A arquitetura do modelo zero-shot herda vários componentes centrais da arquitetura KVC, incluindo codificação de conteúdo, codificação de tom e recuperação. A principal adição é um módulo de codificador de cantor, que calcula uma incorporação de cantor a partir do arquivo de referência. A incorporação do cantor é uma representação desentrelaçada das vocais do cantor-alvo que pode então ser usada para conversão.

Recuperação Fonêmica para Preservação de Acento

Além de preservar as qualidades timbrais do falante de referência, o modelo ZS-SVC também utiliza um sistema de recuperação fonêmica. Semelhante à recuperação no KVC, isso ajuda a preservar o sotaque do falante-alvo, sem sobrecorreções que possam levar a erros de pronúncia.

Dados

Otimizar para a qualidade dos dados em vez da quantidade tem um grande impacto nos resultados do canto de zero-shot. O modelo ZS-SVC foi treinado com o conjunto de dados vocais gravados em estúdio licenciados da Kits. Todos os dados são licenciados diretamente dos artistas e pré-processados à mão por engenheiros de áudio para alcançar um nível de qualidade de lançamento.

Olhando para frente

ZS-SVC alimenta nosso novo recurso de Clonagem de Voz Instantânea (IVC), atualmente disponível para usuários beta do Kits. Mais recursos usando ZS-SVC se tornarão disponíveis para a comunidade mais ampla do Kits ao longo do tempo.

Estamos empolgados para ver como os criadores de música usarão este novo modelo para impulsionar seu processo criativo!

Recursos

Recursos

Preços

Aplicativo de desktop

Pesquisa

Blog

Entre

Apresentando a Conversão de Voz para Canto Sem Exemplos

Entrada

Referência do Cantor Alvo

Saída

Arquitetura e Dados

Recuperação Fonêmica para Preservação de Acento

Dados

Olhando para frente

PRODUTO

RECURSOS

LEGAL

RECURSOS