PESQUISA

Apresentando KGV1: o primeiro modelo de vocais generativos da Kits.AI

18 de fevereiro de 2025

por Kyle Dhillon, Anastasiia Herus, Amantur Amatov

Estamos felizes em compartilhar nosso primeiro modelo totalmente generativo de texto para vocais: KGV1 (Kits Generative Vocals 1.0).

Este modelo combina elementos das técnicas de música generativa SOTA e arquiteturas vocais do Kits para produzir uma geração de texto para vocais de alta qualidade.

“Estou de volta à cidade, coloque aquele disco e aumente o volume.”

0:00/1:34

“Cercas envelhecidas / o verão acabou / com meus amigos e nunca melhor.”

0:00/1:34

“Algo sobre a forma como você soa / quando canta do nada.”

0:00/1:34

“Enquanto eu dormia no seu sofá, você acordou para vê-lo sair, oh...”

0:00/1:34

"Nós vamos acordar com o sol, porque agora sabemos por quem estamos vivendo"

0:00/1:34

"Esta vai para a equipe, sem vocês o que eu seria"

0:00/1:34

KGV1 se baseia em pesquisas de ponta sobre transformadores de difusão para enfrentar o desafio do condicionamento de letras — permitindo que um sistema baseado em difusão traduza letras em cantos coesos.

Além disso, conseguimos alcançar uma saída vocal de maior fidelidade em relação a outros modelos generativos de texto para áudio ao aproveitar módulos do Kits Voice Conversion (KVC). A integração do codificador de conteúdo, recuperação de conteúdo e extração de pitch estável do KVC corrige artefatos de pronúncia e inconsistências de pitch que frequentemente estão presentes em outras saídas vocais generativas.

Além disso, isso dá aos usuários controle sobre o timbre e o estilo de sua voz-alvo.

O Copiloto de IA para o Seu Fluxo de Trabalho Musical

KGV1 é um ponto de partida para nossa próxima geração de modelos generativos poderosos que atendem às necessidades práticas dos produtores musicais. Para um vocalista, o KGV1 poderia esboçar ideias para linhas de cima; para um produtor, poderia criar clipes vocais únicos para amostragem ou uso na produção final.

Ao conversar com centenas de produtores, artistas e vocalistas da comunidade Kits, acreditamos que as ferramentas de música generativa são mais poderosas quando funcionam no contexto de um fluxo de trabalho musical. Assim, pesquisas futuras nos levarão a sinais de condicionamento musical adicionais, como faixas instrumentais, curvas de pitch, sequências MIDI, BPM e prompts de estilo. Vemos o KGV1 como o primeiro passo em direção a uma inteligência musical generativa que se encaixa diretamente no fluxo de trabalho criativo.

KGV1 estará disponível em beta privado em app.kits.ai.