Como Otimizar o Treinamento de um Modelo de Voz de IA
Escrito por
Publicado em
17 de setembro de 2024
Embora possa parecer contra-intuitivo, um modelo de voz AI bem sonoro não requer cantores com afinação perfeita. Um dos erros mais comuns que encontro ao revisar submissões para nosso programa Vozes da Comunidade são conjuntos de dados fortemente alterados com auto-tune. De fora, é compreensível que muitos assumam que conjuntos de dados com afinação perfeita equivalem a modelos com afinação perfeita. Neste post, exploraremos por que usar correção de afinação pode realmente prejudicar a qualidade do seu modelo de voz AI, juntamente com outras dicas úteis para treinar um modelo mais natural e realista.
Quanto Mais, Melhor!
Modelos vocais AI prosperam com dados diversificados. Se você enviar uma música de três minutos e meio em um registro vocal baixo, o modelo pode soar ótimo para essa música em particular, mas ele perderá a versatilidade do alcance completo de um cantor da vida real. Para resultados ideais, busque pelo menos 30 minutos de material vocal que abranja um amplo espectro de tons, dinâmicas e estilos de entrega.
Incorpore tudo, desde notas suaves e delicadas até gritos de alta energia, cobrindo o amplo espectro das habilidades de um cantor. Essa diversidade garante que seu modelo soe natural e versátil, capaz de performar em uma ampla gama de material sem ser limitado por um conjunto de dados restrito.
Bounce para Mono Verdadeiro!
Um erro comum é enviar áudio estéreo em vez de mono verdadeiro ao treinar um modelo de voz. O Kits atualmente permite um máximo de 200 MB de dados de treinamento, então enviar faixas em estéreo, mesmo que gravadas com um único microfone, pode desnecessariamente dobrar o tamanho do seu arquivo. Isso reduz a quantidade de dados de treinamento utilizáveis.
Ao garantir que suas vozes sejam enviadas como mono verdadeiro, você maximiza a quantidade de dados de treinamento e evita atingir o limite de tamanho muito cedo. Embora o estéreo seja essencial para produções modernas, modelos de voz AI só requerem mono para eficiência.
Autotune e Correção de Afinação Não São Necessários!
Como mencionei anteriormente, vocais com afinação perfeita não são necessários para dados de treinamento. Todo cantor, mesmo aqueles com afinação excepcional, tem variações naturais em sua voz. Embora o Antares AutoTune afinado possa se adequar ao seu estilo de produção, ele pode resultar em modelos AI robóticos e com som não natural.
A chave é reservar a correção de afinação para a pós-produção. Treinar seu modelo de voz AI com vocais naturais e não processados resultará em um som mais realista e evitará que seu modelo fique preso a um estilo específico e excessivamente processado.
Salve os Efeitos para a Pós-Produção!
Efeitos como reverb, delay e modulação são ótimos para aprimorar performances vocais, mas devem ser evitados ao criar dados de treinamento. Esses efeitos podem interferir no processo de aprendizado de máquina, que se concentra em capturar a essência natural da voz humana. Incluir esses efeitos em seu conjunto de dados pode resultar em modelos repletos de artefatos digitais, fazendo com que eles soem menos reais.
Em vez disso, concentre-se em capturar vocais secos e limpos. Você sempre pode adicionar efeitos depois. Se as reflexões da sala forem um problema, tente gravar em um espaço pequeno como um armário ou use um filtro de reflexão como o sE RF-X para minimizar o reverb e garantir um conjunto de dados mais limpo.
Priorize a Consistência Sonora
Embora a diversidade na entrega vocal possa aprimorar seu modelo AI, a consistência na qualidade de gravação é crucial. Ruídos de fundo de ventoinhas, condicionadores de ar ou outros itens domésticos podem afetar negativamente o resultado do seu modelo. Preste atenção nos níveis de pré-amplificador e qualquer distorção causada por cortes no microfone ou interface. Fique atento a quaisquer inconsistências e garanta uma captura limpa e sem distorções.
Variações vocais leves devido a mudanças diárias na voz do cantor podem realmente adicionar profundidade ao seu modelo, mas certifique-se de que o lado técnico da sua gravação permaneça consistente para manter resultados de alta qualidade.
Conclusão
Ao criar um modelo de voz AI, é fácil presumir que técnicas tradicionais de produção vocal melhorarão o resultado. No entanto, seguindo essas dicas – usando dados naturais e diversificados, mantendo a consistência técnica e salvando efeitos para a pós-produção – você criará um modelo de voz mais realista e versátil. Kits AI pode desbloquear possibilidades criativas incríveis e, com a abordagem certa, você pode extrair o máximo dos seus modelos de voz AI. Para diretrizes adicionais de gravação, siga este link para as recomendações da Kits sobre como capturar conjuntos de dados de alta qualidade.
-SK
Sam Kearney é um produtor, compositor e designer de som baseado em Evergreen, CO.