Treinamento e Personalização da Voz de Canto de IA
Escrito por
Publicado em
6 de novembro de 2024
Um dos meus principais papéis na Kits é garantir que nossos modelos livres de royalties sejam treinados com conjuntos de dados sólidos e inspiradores que não apenas soem bem, mas que sejam inspiradores para trabalhar. Algumas partes desse processo são puramente técnicas, enquanto outras se inclinam para escolhas criativas que moldam o caráter do modelo. Hoje, estou explicando como otimizar seus próprios dados de treinamento e fazer algumas decisões criativas intencionais para adicionar uma personalidade única aos seus modelos de voz.
Nas últimas semanas, meus artigos abordaram meu processo de criação de algumas de nossas vozes mais baseadas em personagens e as técnicas únicas que usei. Se foi cantando através de um amplificador de guitarra para meu modelo Male Overdrive Rock ou usando um microfone de fita para capturar um dos meus monitores de estúdio para Vintage Female Jazz, as maneiras de criar um conjunto de dados de destaque são verdadeiramente infinitas.
A Fundação
Uma base sólida é a parte mais crucial da criação de qualquer modelo de voz. Independentemente de quaisquer atributos especiais que eu possa querer adicionar, sempre começo com uma captura vocal limpa. Isso significa remover o ruído de fundo–ar condicionado, zumbido de geladeira, o que quer que esteja por ali—que pode degradar o som do seu modelo e criar problemas no futuro. Digamos que você gravou um excelente conjunto de dados de 30 minutos, mas, ao reproduzir, você ouve um leve zumbido que era quase imperceptível na sala. Já estive lá! Perdi-me em uma gravação, apenas para depois pegar um amplificador zumbindo como louco ou o aquecedor funcionando ao fundo. Confira nosso guia sobre como registrar vocais de alta qualidade você mesmo se estiver começando do zero.
Uma ferramenta como iZotope RX facilita a correção de zumbidos e zumbidos consistentes. Basta abrir o módulo Spectral De-noise do RX, selecionar uma seção do seu áudio com apenas o ruído de fundo, pressionar “Aprender” e reproduzir o áudio. O RX analisará e ajustará automaticamente a redução de ruído. Você pode querer ajustá-lo ainda mais, ajustando os faders de Threshold e Reduction, mas o RX simplifica a remoção desses artefatos irritantes.
Nível de Ganho é Importante
Definir um nível de ganho adequado também é fundamental. Ao criar modelos, eu busco um nível consistente de -12dB, com picos não acima de -6dB. Isso permite que o áudio permaneça dinâmico, enquanto dá à máquina de aprendizado o volume ideal para treinar de forma eficaz. Costumo ver envios que estão ou muito baixos em volume ou clipando no vermelho. O clipping digital não lhe dá aquela saturação agradável que você pode querer em um vocal rock–é apenas áspero, e os algoritmos de aprendizado de máquina também não são fãs.
Criando Caráter
Embora um conjunto de dados limpo e sólido seja geralmente a melhor base, permitindo que você manipule coisas uma vez importadas para sua DAW, às vezes é divertido incorporar algum caráter diretamente nos seus dados de treinamento. Qualquer som que você fizer o upload com um efeito aplicado carregará automaticamente essa qualidade em seu modelo – nenhuma mágica de DAW necessária depois. Isso pode ser perfeito para criadores de conteúdo que desejam acesso a uma vibração vocal específica, como um rádio ou efeito de walkie-talkie que enfatiza as frequências médias-agudas e adiciona um pouco de sujeira. Aplique isso ao seu conjunto de dados inteiro, e você terá um modelo que instantaneamente soa como se estivesse vindo através de um rádio.
Ou talvez seja hora de tirar aquela antiga pedaleira de distorção do canto! Passar seu conjunto de dados por ela pode adicionar um novo nível de caráter vocal.
Costumo gostar de passar vocais por um amplificador de guitarra — aumentando a overdrive e ajustando ao meu gosto. Por que não tocar seu Marshall half-stack e ver quanto tempo leva até que seus vizinhos chamem a polícia!
No entanto, talvez você prefira evitar a queixa de barulho e experimentar um desses pequenos Marshalls alimentados por bateria. (Nota: esses pequenos amplificadores são ouro de estúdio — não durma neles!)
Outro truque? Um pedal wah. Manter um wah “cocada” em determinados pontos pode produzir uma ampla gama de efeitos filtrados. Não há necessidade de ser sofisticado aqui; um padrão Dunlop CryBaby funciona muito bem.
E para uma vibração lo-fi autêntica sem a fita de rolo a rolo, experimente um gravador de cassete. Este aqui possui um microfone embutido e uma porta USB 2.0. Usando o microfone embutido para gravar do seu alto-falante para a cassete pode produzir um som degradado e quente maravilhosamente. Talvez eu precise pegar um desses para mim mesmo — perfeito para experimentar!
Conclusão
No final do dia, fazer música deve ser divertido, e para mim, isso significa superar limites e encontrar novos sons. Não se preocupe se sua primeira tentativa de upload não sair como você queria — cada gravação faz parte do processo, informando seu próximo movimento. Kits.AI está aqui para ajudá-lo a criar algo inspirador e único. Então vá em frente — o céu é o limite!
-SK
Sam Kearney é um produtor, compositor e designer de som baseado em Evergreen, Colorado.