PESQUISA
Conversão de Voz Kits (KVC)
KVC: Conversão de Voz de Canto em Qualidade de Estúdio
Kits.AI é a plataforma líder mundial para conversão profissional de vozes cantantes com IA. Milhões de produtores musicais e vocalistas confiam na Kits para vocais de IA com qualidade de estúdio que capturam a entonação natural, dinâmicas e nuances da voz humana.
A equipe de pesquisa da Kits.AI projetou o Kits Voice Conversion (KVC), um sistema de conversão de voz para voz de ponta que ultrapassa os limites da qualidade na tecnologia de conversão de voz para voz.
Esta página é uma visão geral da crescente lista de inovações dentro do KVC — arquitetura aprimorada, pesos pré-treinados robustos e infraestrutura otimizada — que a tornam a principal escolha para profissionais da indústria em todo o mundo.
Arquitetura KVC: Otimizada para Cantar
A KVC fez melhorias arquitetônicas otimizando especificamente para resultados de canto de qualidade profissional. Esta seção descreve as melhorias arquitetônicas que permitem à KVC superar os sistemas SVC de código aberto em várias dimensões, incluindo pronúncia, precisão de altura, faixa de frequência e dinâmica.
Pesos Base dos Kits
A Kits selecionou e processou à mão um conjunto de dados proprietary extraído de vocalistas individuais que são compensados pelos direitos de treinar em gravações de suas vozes. Essas gravações formam o conjunto de dados no qual os pesos base do KVC são treinados. Sempre que uma voz é clonada com o KVC, ela se baseia na qualidade deste conjunto de dados.
Nossos dados de treinamento, sourcing de dados e práticas de gestão de dados são certificados como Justamente Treinados. Continuamos comprometidos em respeitar os direitos dos artistas e apoiá-los financeiramente.
Detecção de Pitch: Kits Pitch Híbrido
A detecção mais precisa de F0 é crítica para a tarefa SVC. A equipe de pesquisa Kits desenvolveu um algoritmo personalizado de detecção de pitch chamado Kits Hybrid Pitch, que supera os métodos Crepe, RMVPE e Mangio-Crepe, levando a resultados melhores.
Métricas para RMVPE
Métricas para Híbrido
Código Aberto: RVC com RMVPE
Kits Híbridos
Recuperação de Conteúdo Adaptativo
A KVC utiliza o recurso de suavização da recuperação de conteúdo adaptativo, o que leva a níveis mais altos de similaridade entre os falantes em comparação com sistemas de recuperação padrão como o RVC. Durante a inferência, o Kits VC recebe características de entrada e aplica a força de recuperação de forma adaptativa: quanto mais alinhadas as características estão, mais as características do conteúdo são atraídas para a recuperação.
Isso resulta em uma maior preservação do conteúdo fonêmico, levando a melhorias na pronúncia e na similaridade entre os falantes.
Código Aberto: Contentvec + busca por vizinhança mais próxima
Kits: Recuperação de características adaptativas
Codificação de Conteúdo Avançada: Xeus, Híbrido
Sistemas SVC de código aberto usam pesos Hubert ou ContentVec. KVC está integrado tanto com ContentVec, quanto com codificadores de conteúdo avançados como Xeus e sistemas híbridos, o que pode levar a melhorias na pronúncia. Exemplos estão incluídos abaixo.
Pré-processamento de Treinamento
Fatiamento Inteligente
KVC utiliza um método de fatiação mais inteligente para treinar em frases mais longas e completas, evitando cortar no meio de uma palavra ou frase.
Remoção de Ruído e Respiração
KVC inclui etapas adicionais para remoção adaptativa de ruído para melhorar a qualidade.
EQ adaptativo para equilíbrio espectral
KVC inclui ajuste automático de EQ tanto no treinamento quanto na inferência, resultando em maior equilíbrio espectral e paridade entre o áudio de entrada e o áudio de saída.
Pós-processamento de inferência
Correção de Pitch
Correção automática de afinação, inspirada em ferramentas como Antares Auto-Tune, é aplicada opcionalmente durante a conversão.
Efeitos Estilísticos
Efeitos estilísticos como ampliação estéreo e reverberação estão incorporados diretamente no pipeline de inferência, melhorando a qualidade estilística das saídas de canto.
Exemplos de Áudio
Estabilidade de Pitch
Onde os pesos do Open Source são amplamente treinados em dados de fala, os pesos base do KVC são otimizados para canto. O resultado: notas mais cheias e claras em toda (e até além) a extensão de um cantor.
Código Aberto (RVC)
Kits VC
Energia Vocal
Com KVC, o nível de energia em um arquivo de entrada é reproduzido de forma muito mais realista do que com alternativas de código aberto. Flutuações de volume, soprosidade e inícios de notas suaves resultam em um resultado muito mais natural.
Código Aberto (RVC)
Kits VC
Volume
Através de pré-processamento adaptativo, o KVC aborda artefatos de volume comuns às conversões RVC de código aberto.
Código Aberto (RVC)
Kits VC
Qualidade Sonic
Sem um cuidadoso processamento de EQ e faixa dinâmica, um modelo de voz pode rapidamente soar áspero. O KVC equilibra adaptativamente o volume e a resposta de frequência dos conjuntos de dados de treinamento para conversões suaves e de baixa distorção.
Código Aberto (RVC)
Kits VC
Voz de Pitch/Fry Vocal
Por meio de melhorias na detecção de afinação, recuperação de características e resolução temporal, o KVC melhora sutilezas como a entonação vocal e estilos de canto ofegantes.