17 septembre 2024

Comment optimiser l'entraînement d'un modèle vocal d'IA

Lisez notre guide sur la manière de créer le meilleur clone vocal IA sur Kits AI maintenant.

Sam Kearney

Comment optimiser l'entraînement d'un modèle vocal d'IA
Comment optimiser l'entraînement d'un modèle vocal d'IA
Comment optimiser l'entraînement d'un modèle vocal d'IA

Table des matières

Titre

Titre

Commencez gratuitement. Aucune carte de crédit requise.

Notre plan gratuit vous permet de voir comment Kits peut aider à rationaliser votre flux de travail vocal et audio. Lorsque vous êtes prêt à passer à l'étape suivante, les plans payants commencent à partir de 14,99 $ / mois.

Commencez gratuitement. Aucune carte de crédit requise.

Notre plan gratuit vous permet de voir comment Kits peut aider à rationaliser votre flux de travail vocal et audio. Lorsque vous êtes prêt à passer à l'étape suivante, les plans payants commencent à partir de 14,99 $ / mois.

Commencez gratuitement. Aucune carte de crédit requise.

Notre plan gratuit vous permet de voir comment Kits peut aider à rationaliser votre flux de travail vocal et audio. Lorsque vous êtes prêt à passer à l'étape suivante, les plans payants commencent à partir de 14,99 $ / mois.

Bien qu'il puisse sembler contre-intuitif, un modèle vocal AI au son exceptionnel ne nécessite pas des chanteurs ayant une justesse parfaite. Une des erreurs les plus courantes que je rencontre en examinant les soumissions pour notre programme Voix Vérifiées sont les ensembles de données fortement altérés avec l'auto-tune. De l'extérieur, il est compréhensible que beaucoup supposent que des ensembles de données parfaits en termes de hauteur égalent des modèles parfaits. Dans ce post, nous allons explorer pourquoi l'utilisation de la correction de hauteur peut en réalité nuire à la qualité de votre modèle vocal AI, ainsi que d'autres conseils utiles pour entraîner un modèle plus naturel et réaliste.

Quality in = quality out

Plus c'est mieux!

Les modèles vocaux AI prospèrent grâce à des données diversifiées. Si vous téléchargez une chanson de trois minutes et demie dans une gamme vocale basse, le modèle peut sembler génial pour cette chanson particulière, mais il manquera de la polyvalence de la pleine gamme d'un chanteur de la vie réelle. Pour des résultats optimaux, visez au moins 30 minutes de matériel vocal qui couvre une large gamme de hauteurs, de dynamiques et de styles de livraison.

Incorporez tout, des notes douces et délicates aux chants énergiques, couvrant le large éventail des capacités d'un chanteur. Cette diversité garantit que votre modèle sonne naturel et polyvalent, capable de performer sur une large gamme de matériel sans être contraint par un ensemble de données limité.

File upload page of the Kits AI voice cloning feature

Passer au vrai mono!

Une erreur courante est de télécharger de l'audio stéréo au lieu du vrai mono lors de l'entraînement d'un modèle vocal. Kits permet actuellement un maximum de 200 Mo de données d'entraînement, donc passer des pistes au stéréo, même si enregistré avec un seul microphone, peut inutilement doubler la taille de votre fichier. Cela réduit la quantité de données d'entraînement utilisables.

En vous assurant que vos voix sont converties en vrai mono, vous maximisez la quantité de données d'entraînement et évitez d'atteindre la limite de taille trop tôt. Même si le stéréo est essentiel pour les productions modernes, les modèles vocaux AI ne nécessitent que le mono pour plus d'efficacité.

Antares Autotune

L'auto-tune et la correction de hauteur ne sont pas nécessaires!

Comme je l'ai mentionné plus tôt, des voix parfaitement justes ne sont pas requises pour les données d'entraînement. Chaque chanteur, même ceux avec une justesse exceptionnelle, a des variations naturelles dans leur voix. Bien que l'Antares AutoTune à la tonalité fixe puisse convenir à votre style de production, cela peut aboutir à des modèles AI robotiques et au son peu naturel.

Le secret est de garder la correction de hauteur pour la post-production. Former votre modèle vocal AI avec des voix naturelles et non traitées donnera un son plus réaliste et empêchera votre modèle d'être enfermé dans un style spécifique et trop traité.

Guidelines for vocal input for the Kits AI voice clone feature

Sauvegardez les effets pour après!

Les effets comme la réverbération, le délai et la modulation sont super pour améliorer les performances vocales, mais ils devraient être évités lors de la création de données d'entraînement. Ces effets peuvent interférer avec le processus d'apprentissage machine, qui se concentre sur la capture de l'essence naturelle de la voix humaine. Les inclure dans votre ensemble de données peut aboutir à des modèles remplis d'artefacts numériques, les rendant moins réalistes.

Au lieu de cela, concentrez-vous sur la capture de voix sèches et claires. Vous pouvez toujours ajouter des effets plus tard. Si les réflexions de la pièce posent problème, essayez d'enregistrer dans un petit espace comme un placard, ou utilisez un filtre de réflexion comme le sE RF-X pour minimiser la réverbération et garantir un ensemble de données plus propre.

Avoid background noise

Priorisez la cohérence sonore

Bien que la diversité dans la livraison vocale puisse améliorer votre modèle AI, la cohérence dans la qualité d'enregistrement est cruciale. Le bruit de fond des ventilateurs, climatiseurs ou autres objets domestiques peut affecter négativement le résultat de votre modèle. Faites attention aux niveaux de préamplification et à toute distorsion causée par le clipping du micro ou de l'interface. Soyez à l'affût de toute incohérence et assurez-vous d'une capture propre et sans distorsion.

De légères variations vocales dues aux changements quotidiens dans la voix du chanteur peuvent en fait ajouter de la profondeur à votre modèle, mais assurez-vous que le côté technique de votre enregistrement reste cohérent pour maintenir des résultats de haute qualité.

Conclusion

Lors de la construction d'un modèle vocal AI, il est facile de supposer que les techniques de production vocale traditionnelles amélioreront le résultat. Cependant, en suivant ces conseils – en utilisant des données naturelles et diversifiées, en maintenant la cohérence technique et en gardant les effets pour la post-production – vous créerez un modèle vocal plus réaliste et polyvalent. Kits AI peut débloquer des possibilités créatives incroyables, et avec la bonne approche, vous pouvez tirer le meilleur parti de vos modèles vocaux AI. Pour des directives d'enregistrement supplémentaires, suivez ce lien pour les recommandations de Kits pour capturer des ensembles de données de haute qualité.


-SK

Sam Kearney est producteur, compositeur et designer sonore basé à Evergreen, CO.

Articles de blog recommandés pour vous