Erros Comuns a Evitar ao Usar Vozes de Inteligência Artificial
Written by
Published on
23 de agosto de 2024
Introdução
Incorporar Vozes de IA em sua música é uma ferramenta empolgante e inovadora para músicos e produtores, graças aos avanços na inteligência artificial. Como qualquer nova tecnologia, isso requer alguns ajustes para obter os melhores resultados. Na Kits.AI, processamos conjuntos de dados para criar configurações ideais para um treinamento preciso e realista de modelos vocais de IA. Com o tempo, percebi erros comuns que podem prejudicar o desempenho das vozes geradas por IA. Neste artigo, destacarei essas armadilhas e oferecer dicas sobre como otimizar seus modelos vocais de IA.
Nível e Dinâmica
A voz humana é única, assim como uma impressão digital, com seu próprio timbre e nuances emocionais. Cantar é tipicamente uma forma elevada de expressão emocional e pode variar naturalmente em intensidade. Ao gravar vocais, essas variações são frequentemente gerenciadas usando técnicas de microfone e compressores. Cantores experientes podem “se auto-comprimir” ajustando sua distância do microfone durante seções mais altas. No entanto, mesmo com essa técnica, compressão adicional geralmente é necessária para manter um mix equilibrado.
Assim como a compressão natural beneficia músicas, ela também melhora o processo de treinamento para modelos vocais de IA. Na Kits.AI, descobrimos que faixas vocais com uma faixa dinâmica controlada produzem melhores resultados quando se trata de clonagem vocal, especialmente ao usar software avançado para processamento. Minha técnica pessoal para preparar uma voz para treinamento é importar a faixa para meu DAW e usar ganho de clipe para nivelar algumas das seções mais extremas antes de aplicar qualquer compressão adicional. Isso garante que o compressor funcione de forma eficiente sem introduzir sons não naturais.
Na imagem abaixo, a faixa superior mostra o conjunto de dados original, enquanto a faixa inferior ilustra meus ajustes de nivelamento:
Usando essa abordagem, apenas um leve toque de compressão é necessário. Recomendo não mais do que 3-5 dB de redução de ganho.
Para resultados ideais, busque um nível médio de volume de -12 dB com picos não superiores a -6 dB. Isso fornece uma ótima base para aprendizado de máquina e cria modelos de voz de IA mais realistas.
De-esser para Reduzir Sibilância Áspera
A sibilância áspera, causada por consoantes como “s,” “t,” e “z,” pode ser distrativa e desagradável em gravações vocais. Um de-esser, como o Pro-DS da FabFilter, é essencial para controlar esses sons brilhantes. Isso garante que seu modelo de voz de IA não seja treinado para replicar esses elementos ásperos, resultando em uma saída mais suave e profissional.
EQ: Balanceando o Espectro
A equalização (EQ) desempenha um papel crucial na modelagem do som de uma gravação vocal. Embora as configurações específicas de EQ possam variar dependendo do conteúdo musical, um EQ bem equilibrado pode melhorar significativamente a qualidade do seu modelo de voz de IA e fornecer um ótimo ponto de partida para qualquer contexto e gênero em que seu modelo de voz de IA existirá.
Comece com um filtro passa-alta para remover quaisquer frequências graves desnecessárias que não contribuem para o tom vocal. No entanto, tenha cuidado ao ultrapassar 100 Hz, pois isso pode eliminar elementos importantes do timbre vocal.
Por outro lado do espectro, preste atenção a quaisquer frequências agudas ásperas que podem ser introduzidas por muitos microfones mais acessíveis. Nem todos têm um Neumann vintage para cantar (eu mesmo incluído). Um filtro passa-baixa pode ajudar a domar essas frequências, geralmente em torno de 20 kHz e acima.
Usar um EQ como o Pultec EQP-1A, conhecido por seu caráter suave e quente, é uma ótima escolha para limpar o ruído de baixa frequência e suavizar os agudos.
Correção de Pitch: Quando e Como Usá-la
Ferramentas de correção de pitch, como a versão gratuita do Antares Auto-Tune, são frequentemente usadas como um efeito na produção musical moderna. No entanto, ao treinar um modelo de voz de IA, recomendo manter os vocais naturais e aplicar a correção de pitch após a voz já ter sido clonada. Essa abordagem mantém o realismo do seu modelo de IA e oferece flexibilidade para futuros projetos que podem requerer um som mais natural.
Variedade Vocal: Expanda Seu Material de Fonte
Um dos erros mais comuns no treinamento vocal de IA é a falta de variedade no conjunto de dados vocais. Modelos de aprendizado de máquina só podem treinar com o material fornecido, então um conjunto de dados limitado resulta em um modelo vocal limitado. Para elaborar, recebi submissões que incluem cantores interpretando uma música repetidamente. Embora possam soar ótimos naquela única música, sei que eles são capazes de alcançar notas mais altas e mais baixas, exudando inflexões vocais mais intensas e suaves, todas as quais não serão incluídas em seu modelo vocal porque o aprendizado de máquina não tem acesso a essas informações adicionais. Como resultado, isso fornecerá um caso de uso muito limitado para um modelo de voz de IA.
Para criar vozes de IA versáteis, inclua uma ampla gama de performances vocais no seu material de treinamento. Isso deve abranger diferentes notas, expressões emocionais e técnicas vocais, incluindo tanto vozes de peito quanto falseto, para imitar a versatilidade de um artista real. Embora o requisito mínimo seja de 15 minutos de áudio, recomendo utilizar os 30 minutos completos para capturar a gama total das habilidades do vocalista.
Remova Espaços Vazios
As submissões vocais são frequentemente versões a cappella de músicas na íntegra. Como o processo de aprendizado de máquina só se preocupa em analisar uma performance vocal, longos espaços vazios, que podem ser seções instrumentais de uma música completa, são desnecessários e ocupam um tempo valioso no conjunto de dados. Para otimizar seu modelo de voz de IA, remova quaisquer seções não vocais e garanta que o áudio seja contínuo, conforme mostrado em meu exemplo inicial acima. Utilizar essa abordagem maximizará os dados de treinamento e ajudará seu modelo a reter o máximo de realismo possível.
Exporte Seu Áudio Como Mono Verdadeiro
Finalmente, sempre exporte seus stems vocais como faixas mono verdadeiras. Submeter faixas estéreo, mesmo que a gravação tenha sido em mono, dobra os dados percebidos e reduz a quantidade de material utilizável para treinamento. Para obter os melhores resultados de clonagem vocal, maximize a quantidade de material que seu modelo pode ser treinado exportando sua faixa vocal em mono antes de fazer upload para Kits.AI.
Conclusão
Seguindo estas dicas, você pode evitar erros comuns de vocal de IA e começar a desbloquear todo o potencial desta ferramenta poderosa. Lembre-se, a IA não é uma ferramenta criativa, é uma ferramenta do criador. Como todas as novas ferramentas e tecnologias emergentes, há uma curva de aprendizado, mas com a abordagem certa, incorporar vozes de IA em sua música pode abrir novas possibilidades que antes eram inimagináveis.
-SK
Sam Kearney é um produtor, compositor e designer de som baseado em Evergreen, CO.