Erreurs courantes à éviter lors de l'utilisation de la voix artificielle

Découvrez les meilleures astuces pour tirer le meilleur parti de vos conversions vocales en IA compilées par l'écrivain, auteur-compositeur et producteur Sam Kearney.

Erreurs courantes à éviter lors de l'utilisation de la voix artificielle
Erreurs courantes à éviter lors de l'utilisation de la voix artificielle
Erreurs courantes à éviter lors de l'utilisation de la voix artificielle

Écrit par

Sam Kearney

Sam Kearney

Publié le

23 août 2024

Copier le lien

Copié

Introduction

Incorporer des Voix AI dans votre musique est un outil excitant et innovant pour les musiciens et les producteurs, grâce aux avancées de l'intelligence artificielle. Comme toute nouvelle technologie, cela nécessite un certain ajustement pour obtenir les meilleurs résultats. Chez Kits, nous traitons des ensembles de données pour créer des configurations idéales pour la formation de modèles vocaux AI précis et réalistes. Avec le temps, j'ai remarqué des erreurs communes qui peuvent entraver la performance des voix générées par AI. Dans cet article, je mettrai en évidence ces pièges et offrirai des conseils sur la façon d'optimiser vos modèles vocaux AI.

A page of sheet music

Niveau et Dynamique

La voix humaine est unique, tout comme une empreinte digitale, avec son propre timbre et sa nuance émotionnelle. Le chant est généralement une forme accentuée d'expression émotionnelle et peut naturellement varier en volume. Lors de l'enregistrement de voix, ces variations sont souvent gérées en utilisant des techniques de micro et des compresseurs. Les chanteurs expérimentés peuvent « s'auto-comprimer » en ajustant leur distance du micro pendant les sections fortes. Cependant, même avec cette technique, une compression supplémentaire est généralement nécessaire pour maintenir un mix équilibré.

Tout comme la compression naturelle bénéficie aux chansons, elle améliore également le processus de formation des modèles vocaux AI. Chez Kits AI, nous avons constaté que les pistes vocales avec une plage dynamique contrôlée produisent de meilleurs résultats en matière de clonage vocal, surtout lors de l'utilisation d'un logiciel avancé pour le traitement. Ma technique personnelle pour préparer une voix pour l'entraînement est d'importer la piste dans mon DAW et d'utiliser le gain de clip pour égaliser certaines des sections les plus extrêmes avant d'appliquer une compression supplémentaire. Cela permet au compresseur de fonctionner efficacement sans introduire de sons artificiels.

Dans l'image ci-dessous, la piste supérieure montre l'ensemble de données original, tandis que la piste inférieure illustre mes ajustements de niveau :

Two tracks in a DAW

En utilisant cette approche, seule une légère touche de compression est nécessaire. Je recommande pas plus de 3 à 5 dB de réduction de gain.

Pour des résultats optimaux, visez un niveau de volume moyen de -12 dB avec des pics ne dépassant pas -6 dB. Cela fournit une excellente base pour l'apprentissage automatique et crée des modèles vocaux AI réalistes.

Dé-esser pour Réduire la Sibilance Aiguë

La sibilance aiguë, causée par des consonnes comme “s”, “t” et “z”, peut être distrayante et désagréable dans les enregistrements vocaux. Un dé-esseur, tel que FabFilter’s Pro-DS, est essentiel pour contrôler ces sons brillants.   Cela garantit que votre modèle vocal AI n'est pas entraîné à reproduire ces éléments durs, ce qui donne un résultat plus lisse et plus professionnel.

FabFilter Pro DS

Égalisation : Équilibrer le Spectre

L'égalisation (EQ) joue un rôle crucial dans la création du son d'un enregistrement vocal. Bien que les réglages spécifiques de l'EQ puissent varier en fonction du contenu musical, un EQ bien équilibré peut améliorer considérablement la qualité de votre clone vocal AI et fournir un excellent point de départ pour quel que soit le contexte et le genre dans lequel votre modèle vocal AI existera. 

Commencez par un filtre passe-haut pour éliminer les fréquences basses inutiles qui ne contribuent pas au ton vocal. Cependant, faites attention lorsque vous dépassez 100 Hz, car cela pourrait éliminer des éléments importants du timbre vocal.

À l'autre extrémité du spectre, faites attention aux fréquences aiguës agressives qui peuvent être introduites par de nombreux microphones plus abordables. Tout le monde n'a pas un vintage Neumann à chanter (moi y compris). Un filtre passe-bas peut aider à dompter ces fréquences, généralement autour de 20 kHz et au-dessus. 

Utiliser un EQ comme le Pultec EQP-1A, connu pour son caractère lisse et chaud, est un excellent choix pour nettoyer les grondements des basses et adoucir les aigus. 

Adjusting EQ with the Pultec EQP-1A

Correction de Tonalité : Quand et Comment l'Utiliser

Les outils de correction de tonalité, comme la version gratuite de Antares Auto-Tune, sont souvent utilisés comme un effet dans la production musicale moderne. Cependant, lors de la formation d'un modèle vocal AI, je recommande de garder les voix naturelles et d'appliquer la correction de tonalité après que la voix a déjà été clonée. Cette approche maintient le réalisme de votre modèle AI et offre de la flexibilité pour les projets futurs qui pourraient nécessiter un son plus naturel.

Variété Vocale : Élargissez Vos Matériaux Source

Une des erreurs les plus courantes dans la formation vocale AI est le manque de variété dans l'ensemble de données vocales. Les modèles d'apprentissage automatique ne peuvent s'entraîner qu'à partir du matériel fourni, donc un ensemble de données limité entraîne un modèle vocal limité. Pour élaborer, j'ai reçu des soumissions qui déclaraient des chanteurs interprétant une chanson encore et encore. Bien qu'ils puissent sonner très bien sur cette chanson, je sais qu'ils sont capables d'atteindre des tonalités plus hautes et plus basses, en exudant des inflexions vocales plus intenses et plus douces, tout cela ne sera pas inclus dans leur modèle vocal parce que l'apprentissage automatique n'a pas accès à ces informations supplémentaires. Cela fournira à son tour un cas d'utilisation très limité pour un modèle vocal AI.

Pour créer des voix AI polyvalentes, incluez une large gamme de performances vocales dans votre matériel d'entraînement. Cela devrait couvrir différentes hauteurs de ton, expressions émotionnelles et techniques vocales, y compris à la fois les voix de poitrine et de falsetto, pour imiter la polyvalence d'un véritable artiste. Bien que l'exigence minimale soit de 15 minutes d'audio, je recommande d'utiliser les 30 minutes complètes pour capturer l'ensemble de la gamme des capacités du chanteur.

A sound mixer

Supprimer l'Espace Vide

Les soumissions vocales sont souvent des versions acapella des chansons dans leur intégralité. Étant donné que le processus d'apprentissage automatique ne se soucie que d'analyser une performance vocale, de longs espaces vides, qui peuvent être des sections instrumentales d'une chanson complète, sont inutiles et occupent un temps précieux dans l'ensemble de données. Pour optimiser votre modèle vocal AI, supprimez toutes les sections non vocales et assurez-vous que l'audio est continu, comme montré dans mon exemple initial ci-dessus. Utiliser cette approche maximisera les données d'entraînement et aidera votre modèle à conserver autant de réalisme que possible.

Exportez Votre Audio Comme Mono Vrai

Enfin, exportez toujours vos stems vocaux comme des pistes mono vraies. Soumettre des pistes stéréo, même si l'enregistrement était en mono, double les données perçues et réduit la quantité de matériel utilisable pour l'entraînement. Pour obtenir les meilleurs résultats en matière de clonage vocal, maximisez la quantité de matériel sur lequel votre modèle peut être entraîné en exportant votre piste vocale en mono avant de la télécharger sur Kits.AI.

Conclusion

En suivant ces conseils, vous pourrez éviter les erreurs courantes liées aux voix AI et commencer à débloquer tout le potentiel de cet outil puissant. Souvenez-vous, l'IA n'est pas un outil créatif, c'est un outil pour le créateur. Comme tous les nouveaux outils et technologies émergentes, il y a une courbe d'apprentissage, mais avec la bonne approche, incorporer des voix AI dans votre musique peut ouvrir de nouvelles possibilités qui étaient autrefois inimaginables.


-SK

Sam Kearney est un producteur, compositeur et concepteur sonore basé à Evergreen, CO.

Table des matières

Titre

Titre

Commencez, c'est gratuit.

Optimisez votre flux de production vocale avec des outils audio AI de qualité studio

Commencez, c'est gratuit.

Optimisez votre flux de production vocale avec des outils audio AI de qualité studio

Commencez, c'est gratuit.

Optimisez votre flux de production vocale avec des outils audio AI de qualité studio