17 de setembro de 2024

Como Otimizar o Treinamento de um Modelo de Voz de IA

Leia nosso guia que cobre como construir o melhor clone de voz de IA na Kits AI agora.

Sam Kearney

Como Otimizar o Treinamento de um Modelo de Voz de IA
Como Otimizar o Treinamento de um Modelo de Voz de IA
Como Otimizar o Treinamento de um Modelo de Voz de IA

Sumário

Título

Título

Comece grátis. Não é necessário cartão de crédito.

Nosso plano gratuito permite que você veja como os Kits podem ajudar a simplificar seu fluxo de trabalho vocal e de áudio. Quando você estiver pronto para dar o próximo passo, os planos pagos começam a partir de R$ 14,99 / mês.

Comece grátis. Não é necessário cartão de crédito.

Nosso plano gratuito permite que você veja como os Kits podem ajudar a simplificar seu fluxo de trabalho vocal e de áudio. Quando você estiver pronto para dar o próximo passo, os planos pagos começam a partir de R$ 14,99 / mês.

Comece grátis. Não é necessário cartão de crédito.

Nosso plano gratuito permite que você veja como os Kits podem ajudar a simplificar seu fluxo de trabalho vocal e de áudio. Quando você estiver pronto para dar o próximo passo, os planos pagos começam a partir de R$ 14,99 / mês.

Embora possa parecer contra-intuitivo, um modelo de voz AI com um som ótimo não requer cantores com perfeito alcance vocal. Um dos erros mais comuns que encontro ao revisar submissões para nosso programa Voices Verificadas são conjuntos de dados fortemente alterados com auto-tune. Do lado de fora, é compreensível que muitos assumam que conjuntos de dados com alcance perfeito igualam a modelos com alcance perfeito. Neste post, vamos explorar por que usar correção de pitch pode realmente prejudicar a qualidade do seu modelo de voz AI, juntamente com outras dicas úteis para treinar um modelo mais natural e realista.

Quality in = quality out

Quanto Mais, Melhor!

Modelos vocais AI prosperam com dados diversificados. Se você enviar uma música de três minutos e meio em uma faixa vocal baixa, o modelo pode soar ótimo para essa música específica, mas faltará a versatilidade do alcance total de um cantor na vida real. Para resultados ótimos, tenha como meta pelo menos 30 minutos de material vocal que abranja uma ampla gama de tons, dinâmicas e estilos de entrega.

Incorpore tudo, desde notas suaves e delicadas até gritos de energia total, cobrindo o amplo espectro das habilidades de um cantor. Essa diversidade garante que seu modelo soe natural e versátil, capaz de se apresentar em uma ampla variedade de material sem estar limitado por um conjunto de dados restrito.

File upload page of the Kits AI voice cloning feature

Transfira para Mono Verdadeiro!

Um erro comum é enviar áudio estéreo em vez de mono verdadeiro ao treinar um modelo de voz. O Kits atualmente permite um máximo de 200 MB de dados de treinamento, então transferir faixas para estéreo, mesmo que gravadas com um único microfone, pode desnecessariamente dobrar o tamanho do seu arquivo. Isso reduz a quantidade de dados de treinamento utilizáveis.

Ao garantir que suas vozes sejam transferidas para mono verdadeiro, você maximiza a quantidade de dados de treinamento e evita atingir o limite de tamanho muito cedo. Embora o estéreo seja essencial para produções modernas, modelos de voz AI precisam apenas de mono para eficiência.

Antares Autotune

Autotune e Correção de Pitch Não São Necessários!

Como mencionei anteriormente, vocais perfeitos não são exigidos para dados de treinamento. Cada cantor, mesmo aqueles com alcance excepcional, tem variações naturais em sua voz. Embora o Antares AutoTune afinado possa se adequar ao seu estilo de produção, pode resultar em modelos AI robóticos e com som artificial.

A chave é reservar a correção de pitch para a pós-produção. Treinar seu modelo de voz AI com vocais naturais e não processados produzirá um som mais realista e evitará que seu modelo fique preso a um estilo específico e excessivamente processado.

Guidelines for vocal input for the Kits AI voice clone feature

Reserve os Efeitos Para a Pós-Produção!

Efeitos como reverb, delay e modulação são ótimos para aprimorar performances vocais, mas devem ser evitados ao criar dados de treinamento. Esses efeitos podem interferir no processo de aprendizado de máquina, que se concentra em capturar a essência natural da voz humana. Incluí-los em seu conjunto de dados pode resultar em modelos cheios de artefatos digitais, tornando-os menos realistas.

Em vez disso, concentre-se em capturar vocais secos e limpos. Você sempre pode adicionar efeitos depois. Se reflexões de sala forem um problema, tente gravar em um espaço pequeno como um armário, ou use um filtro de reflexão como o sE RF-X para minimizar reverb e garantir um conjunto de dados mais limpo.

Avoid background noise

Priorize a Consistência Sonora

Enquanto a diversidade na entrega vocal pode aprimorar seu modelo AI, a consistência na qualidade da gravação é crucial. Ruídos de fundo de ventiladores, condicionadores de ar ou outros itens domésticos podem afetar negativamente o resultado do seu modelo. Preste atenção aos níveis do pré-amplificador e qualquer distorção causada por clipping do microfone ou interface. Fique atento a quaisquer inconsistências e garanta uma captura limpa e sem distorções.

Leves variações vocais devido a mudanças diárias na voz do cantor podem realmente adicionar profundidade ao seu modelo, mas certifique-se de que o lado técnico da sua gravação permaneça consistente para manter resultados de alta qualidade.

Conclusão

Ao construir um modelo de voz AI, é fácil assumir que técnicas de produção vocal tradicionais melhorarão o resultado. No entanto, ao seguir essas dicas – usando dados naturais e diversificados, mantendo consistência técnica e reservando efeitos para a pós-produção – você criará um modelo de voz mais realista e versátil. Kits AI podem desbloquear incríveis possibilidades criativas e, com a abordagem certa, você pode extrair o máximo de seus modelos de voz AI. Para diretrizes adicionais de gravação, siga este link para as recomendações do Kits para capturar conjuntos de dados de alta qualidade.


-SK

Sam Kearney é um produtor, compositor e designer de som com sede em Evergreen, CO.

Artigos do Blog Recomendados Para Você