Criação de Modelo de Voz

Crie o melhor modelo de voz possível criando um conjunto de dados de alta qualidade usando as dicas abaixo.

Criação de Modelo de Voz

Crie o melhor modelo de voz possível criando um conjunto de dados de alta qualidade usando as dicas abaixo.

Criação de Modelo de Voz

Crie o melhor modelo de voz possível criando um conjunto de dados de alta qualidade usando as dicas abaixo.

Como criar seu conjunto de dados.

Como criar seu conjunto de dados.

Reúna 30-60 minutos totais de vocais secas (sem efeitos) e monofônicas (uma nota de cada vez).

- Sem reverberação, atraso, coro ou instrumentais,
- Sem harmonias, sobreposições, duplicações, efeitos estéreo.
- Sem variação nos estilos vocais. Por exemplo, apenas cantando ou apenas fazendo rap, mas não ambos.

Vocais ruins

Vocais ruins

Vocais ruins

Estéreo, reverberação, atraso

0:00/1:34

Boas vocais

Boas vocais

Boas vocais

Mono, tom limpo, baixo ruído

Preparando seu(s) arquivo(s).

Exporte seus arquivos sem silêncio e com volume consistente como um arquivo de áudio sem perdas de 16 bits (.wav preferencial).

Antes: silêncio, níveis de volume inconsistentes

Depois: silêncio truncado, volume consistente

Uma vez que você tenha compilado suas vozes, o próximo passo é preparar seus arquivos para treinamento:

Depois de compilar suas vozes, o próximo passo é preparar seus arquivos para treinamento:

  • Remova qualquer silêncio extra (recomendamos fazer isso automaticamente com o Audacity)

  • Exporte como verdadeiro mono (em vez de estéreo com canais L + R iguais)

  • Exporte como .wav de 16 bits (sem requisitos de duração de áudio, pode ser um arquivo de 15 minutos ou 15 arquivos de 1 minuto)

Como converter para mono e remover o silêncio com o Audacity

Use a ferramenta de separação vocal Kits.AI para isolar os vocais para o conjunto de dados.

Para isolar os vocais de uma música, basta fazer upload de um arquivo ou colar um link do YouTube na ferramenta Separadora Vocal da Kits.AI. Esta é uma maneira fácil de criar seu próprio conjunto de dados.

Advanced dataset techniques.

Pré-processar seu áudio para uma qualidade superior.

Seu áudio pode ser:

- limpo EQd (subtrativo) para reduzir frequências lodosas ou ásperas na gravação

- sutilmente corrigido de afinação (ataque lento, força moderada) a menos que seja uma parte fundamental do estilo vocal

- Des-ess para reduzir qualquer sibilância áspera

- levemente comprimido para equilibrar a faixa dinâmica/reduzir picos (~4-5db de redução de ganho no máximo)

- impulsionado (EQ aditivo) para se adequar ao estilo vocal

- limitado a um pico de -6db com níveis gerais entre -6 e -12db.

- filtrado em alta/baixa para remover frequências abaixo de 40hz–100hz e acima de 20khz

- reequilibrado de fase

Grave suas próprias vozes.

Gravando vocais para o seu modelo? Aqui estão algumas configurações para começar:

- Use um microfone de qualidade com uma ampla faixa de frequência (40hz–20khz)

- Defina a taxa de amostragem de gravação para 48khz e o tipo de arquivo para sem perda (.wav, .aiff, .flac)

- Limite os sons de respiração e tente capturar um tom limpo (evite explosivos, coloque o microfone fora do eixo e/ou use um filtro anti-puff se estiver cantando de forma ofegante)

- Evite reflexos do ambiente (grave em um local com superfícies macias como tapetes e móveis para absorver o som, afaste os microfones das paredes, aproxime-se e reduza o ganho de entrada)

- Monitore o volume da sua gravação e evite exceder -6db dBFS. Tente manter seus níveis entre -12 e -6 dBFS.

- Exporte seu áudio como verdadeiro mono (em vez de estéreo com canais L + R iguais)

- Evite cortes bruscos no áudio (adiciona uma breve fade out para evitar estalos que vêm de cortar o áudio antes ou depois de um cruzamento zero)

Conteúdo

Mais variedade, melhor.

Melhor ter exemplos abrangendo toda a sua faixa. Peito, mistura, falsete; intervalos longos e curtos; notas ásperas e limpas; etc. Quanto mais variedade, melhor.

Você pode cantar as mesmas letras em diferentes tonalidades, algumas músicas do seu repertório, originais, etc. O áudio pode estar em vários arquivos ou em uma única gravação — desde que o tempo de canto some 10 a 15 minutos.

Techniques

Como converter para True Mono

Use o programa gratuito Audacity para converter arquivos estéreo em verdadeiro mono.

Como remover o silêncio

Use o programa gratuito Audacity para remover rapidamente o silêncio de um acapella.

(Copie as configurações neste vídeo, mas sinta-se à vontade para experimentar. Escolha um limite entre -20db e -40db, dependendo do nível de ruído do seu acapella.)

Perguntas Frequentes

P: Quanto tempo leva o treinamento do modelo?

Dependendo do tamanho dos seus dados, o treinamento do modelo pode levar de 30 minutos a várias horas! Mas não se preocupe - enquanto estiver vendo Treinamento no painel de vozes criadas, seu modelo será finalizado em breve.

P: Quanto tempo leva o treinamento do modelo?

Dependendo do tamanho dos seus dados, o treinamento do modelo pode levar de 30 minutos a várias horas! Mas não se preocupe - enquanto estiver vendo Treinamento no painel de vozes criadas, seu modelo será finalizado em breve.

P: Quanto tempo leva o treinamento do modelo?

Dependendo do tamanho dos seus dados, o treinamento do modelo pode levar de 30 minutos a várias horas! Mas não se preocupe - enquanto estiver vendo Treinamento no painel de vozes criadas, seu modelo será finalizado em breve.

P: Meu modelo está demorando uma eternidade para fazer upload! O que está acontecendo?

Se estiver carregando um arquivo grande, levará muito tempo para carregar os dados em nosso backend. Basta pressionar “Enviar” e ter paciência - ele será processado eventualmente. Certifique-se de não atualizar a página durante o envio.

P: Meu modelo está demorando uma eternidade para fazer upload! O que está acontecendo?

Se estiver carregando um arquivo grande, levará muito tempo para carregar os dados em nosso backend. Basta pressionar “Enviar” e ter paciência - ele será processado eventualmente. Certifique-se de não atualizar a página durante o envio.

P: Meu modelo está demorando uma eternidade para fazer upload! O que está acontecendo?

Se estiver carregando um arquivo grande, levará muito tempo para carregar os dados em nosso backend. Basta pressionar “Enviar” e ter paciência - ele será processado eventualmente. Certifique-se de não atualizar a página durante o envio.

P: O que eu faço se eu ver um erro?

A: Se você vir um erro durante o upload, entre em contato conosco em nosso formulário de erro!

Comece grátis. Não é necessário cartão de crédito.

Nosso plano gratuito permite que você veja como os Kits podem ajudar a simplificar seu fluxo de trabalho vocal e de áudio. Quando você estiver pronto para dar o próximo passo, os planos pagos começam a partir de R$ 14,99 / mês.

Comece grátis. Não é necessário cartão de crédito.

Nosso plano gratuito permite que você veja como os Kits podem ajudar a simplificar seu fluxo de trabalho vocal e de áudio. Quando você estiver pronto para dar o próximo passo, os planos pagos começam a partir de R$ 14,99 / mês.

Comece grátis. Não é necessário cartão de crédito.

Nosso plano gratuito permite que você veja como os Kits podem ajudar a simplificar seu fluxo de trabalho vocal e de áudio. Quando você estiver pronto para dar o próximo passo, os planos pagos começam a partir de R$ 14,99 / mês.