Erreurs courantes à éviter lors de l'utilisation de la voix artificielle
Written by
Published on
23 août 2024
Introduction
Intégrer les Vocaux IA dans votre musique est un outil passionnant et innovant pour les musiciens et les producteurs, grâce aux avancées de l'intelligence artificielle. Comme toute nouvelle technologie, cela nécessite un ajustement fin pour obtenir les meilleurs résultats. Chez Kits.AI, nous traitons des ensembles de données pour créer des configurations idéales pour un entraînement précis et réaliste des modèles vocaux IA. Au fil du temps, j'ai remarqué des erreurs courantes qui peuvent nuire à la performance des vocaux générés par IA. Dans cet article, je mettrai en évidence ces pièges et offrirai des conseils sur la façon d'optimiser vos modèles vocaux IA.
Niveau et Dynamiques
La voix humaine est unique, tout comme une empreinte digitale, avec son propre timbre et sa nuance émotionnelle. Chanter est généralement une forme accentuée d'expression émotionnelle et peut naturellement varier en volume. Lors de l'enregistrement des voix, ces variations sont souvent gérées à l'aide de techniques de micro et de compresseurs. Les chanteurs de session expérimentés peuvent « s'auto-comprimer » en ajustant leur distance au micro pendant les sections fortes. Cependant, même avec cette technique, une compression supplémentaire est généralement nécessaire pour maintenir un mélange équilibré.
Tout comme la compression naturelle bénéficie aux chansons, elle améliore également le processus d'entraînement des modèles vocaux IA. Chez Kits.AI, nous avons constaté que les pistes vocales avec une plage dynamique contrôlée produisent de meilleurs résultats en ce qui concerne le clonage vocal, surtout lors de l'utilisation de logiciels avancés pour le traitement. Ma technique personnelle pour préparer un vocal pour l'entraînement est d'importer la piste dans ma DAW et d'utiliser le gain du clip pour égaliser certaines des sections les plus extrêmes avant d'appliquer toute compression supplémentaire. Cela garantit que le compresseur fonctionne efficacement sans introduire de sons non naturels.
Dans l'image ci-dessous, la piste supérieure montre l'ensemble de données original, tandis que la piste inférieure illustre mes ajustements de niveau :
En utilisant cette approche, seule une légère touche de compression est nécessaire. Je recommande de ne pas dépasser 3-5 dB de réduction de gain.
Pour des résultats optimaux, visez un niveau de volume moyen de -12 dB avec des pics ne dépassant pas -6 dB. Cela constitue une excellente base pour l'apprentissage automatique et crée des modèles vocaux IA plus réalistes.
Réduire la Sibilance Aigüe
La sibilance aigüe, causée par des consonnes comme « s », « t » et « z », peut être distrayante et désagréable dans les enregistrements vocaux. Un dé-essreur, tel que FabFilter's Pro-DS, est essentiel pour contrôler ces sons brillants. Cela garantit que votre modèle vocal IA n'est pas entraîné à reproduire ces éléments aigus, résultant en une sortie plus fluide et plus professionnelle.
EQ : Équilibrer le Spectre
L'égalisation (EQ) joue un rôle crucial dans la formation du son d'un enregistrement vocal. Bien que les réglages EQ spécifiques puissent varier en fonction du contenu musical, un EQ bien équilibré peut améliorer considérablement la qualité de votre modèle vocal IA et fournir un excellent point de départ pour quel que soit le contexte et le genre dans lequel votre modèle vocal IA existera.
Commencez par un filtre passe-haut pour éliminer toute fréquence basse inutile qui ne contribue pas à la tonalité vocale. Cependant, faites attention en allant au-dessus de 100 Hz, car cela pourrait éliminer des éléments importants du timbre vocal.
À l'autre extrémité du spectre, soyez attentif à toute fréquence aiguë dure qui pourrait être introduite par de nombreux microphones plus abordables. Tout le monde n'a pas un Neumann vintage à chanter (moi y compris). Un filtre passe-bas peut aider à maîtriser ces fréquences, généralement autour de 20 kHz et plus.
Utiliser un EQ comme le Pultec EQP-1A, connu pour son caractère doux et chaleureux, est un excellent choix pour nettoyer les bourrages de basse et adoucir les aigus.
Correction de Pitch : Quand et Comment l’Utiliser
Les outils de correction de pitch, comme la version gratuite de Antares Auto-Tune, sont souvent utilisés comme un effet dans la production musicale moderne. Cependant, lors de l'entraînement d'un modèle vocal IA, je recommande de garder les voix naturelles et d'appliquer la correction de pitch après que la voix a déjà été clonée. Cette approche maintient le réalisme de votre modèle IA et offre de la flexibilité pour de futurs projets qui peuvent nécessiter un son plus naturel.
Variété Vocale : Élargissez Votre Matériel Source
Une des erreurs les plus courantes dans l'entraînement vocal IA est le manque de variété dans l'ensemble de données vocales. Les modèles d'apprentissage automatique ne peuvent s'entraîner qu'à partir du matériel fourni, donc un ensemble de données limité entraîne un modèle vocal limité. Pour développer, j'ai reçu des soumissions que comprennent des chanteurs interprétant une chanson encore et encore. Bien qu'ils puissent bien sonner sur cette seule chanson, je sais qu'ils sont capables d'atteindre des notes plus hautes et plus basses, de dégager des inflexions vocales plus intenses et plus douces, toutes qui ne seront pas incluses dans leur modèle vocal car l'apprentissage automatique n'a pas accès à ces informations supplémentaires. En conséquence, cela fournira un cas d'utilisation très limité pour un modèle vocal IA.
Pour créer des voix IA polyvalentes, incluez une large gamme de performances vocales dans votre matériel d'entraînement. Cela devrait couvrir différentes hauteurs, expressions émotionnelles et techniques vocales, y compris les voix de poitrine et de fausse. Bien que le minimum requis soit de 15 minutes audio, je recommande d'utiliser les 30 minutes complètes pour capturer toute l'étendue des capacités du vocaliste.
Supprimez l'Espace Vide
Les soumissions vocales sont souvent des versions a cappella de chansons dans leur intégralité. Étant donné que le processus d'apprentissage automatique ne se soucie que d'analyser une performance vocale, de longs espaces vides, qui peuvent être des sections instrumentales d'une chanson complète, sont inutiles et prennent un temps précieux dans l'ensemble de données. Pour optimiser votre modèle vocal IA, retirez toute section non vocale et assurez-vous que l'audio est continu, comme montré dans mon exemple initial ci-dessus. L'utilisation de cette approche maximisera les données d'entraînement et aidera votre modèle à conserver autant de réalisme que possible.
Exportez Votre Audio en Vrai Mono
Enfin, exportez toujours vos stems vocaux en pistes mono véritables. Soumettre des pistes stéréo, même si l'enregistrement était en mono, double les données perçues et réduit la quantité de matériel utilisable pour l'entraînement. Pour obtenir les meilleurs résultats de clonage vocal, maximisez la quantité de matériel sur lequel votre modèle peut être entraîné en transformant votre piste vocale en mono avant de la télécharger sur Kits.AI.
Conclusion
En suivant ces conseils, vous pouvez éviter des erreurs vocales courantes liées à l'IA et commencer à débloquer le plein potentiel de cet outil puissant. N'oubliez pas, l'IA n'est pas un outil créatif, c'est un outil pour les créateurs. Comme tous les nouveaux outils et les technologies émergentes, il y a une courbe d'apprentissage, mais avec la bonne approche, intégrer les vocaux IA dans votre musique peut ouvrir des possibilités qui étaient autrefois inimaginables.
-SK
Sam Kearney est un producteur, compositeur et designer sonore basé à Evergreen, CO.