RECHERCHE
Conversion de voix par kits (KVC)
KVC : Conversion de voix chantée de qualité studio
Kits.AI est la plateforme leader mondiale pour la conversion de voix chantées professionnelles par IA. Des millions de producteurs de musique et de vocalistes comptent sur Kits pour des voix IA de qualité studio qui capturent l'intonation naturelle, la dynamique et les nuances de la voix humaine.
L'équipe de recherche de Kits.AI a conçu Kits Voice Conversion (KVC), un système de conversion de voix à voix de pointe qui repousse les limites de la qualité dans la technologie de conversion de voix à voix.
Cette page présente un aperçu de la liste croissante des innovations au sein de KVC — architecture améliorée, poids pré-entraînés robustes et infrastructure optimisée — qui en fait le choix privilégié des professionnels de l'industrie dans le monde entier.
KVC Architecture : Optimisé pour le chant
KVC a réalisé des améliorations architecturales optimisant spécifiquement la qualité de chant professionnel. Cette section décrit les améliorations architecturales qui permettent à KVC de surpasser les systèmes SVC open-source sur plusieurs dimensions, y compris la prononciation, la précision de la hauteur, la plage de fréquence et la dynamique.
Poids de base des kits
Kits a sélectionné et traité à la main un ensemble de données propriétaire provenant de chanteurs individuels qui sont rémunérés pour les droits d'entraînement sur les enregistrements de leur voix. Ces enregistrements forment l'ensemble de données sur lequel les poids de base KVC sont entraînés. Chaque fois qu'une voix est clonée avec KVC, elle s'inspire de la qualité de cet ensemble de données.
Nos pratiques en matière de données d'entraînement, de sourcing de données et de gestion de données sont certifiées comme Équitablement Entraînées. Nous restons engagés à respecter les droits des artistes et à les soutenir financièrement.
Détection de ton : Kits Hybrid Pitch
Une détection plus précise de F0 est essentielle pour la tâche SVC. L'équipe de recherche Kits a développé un algorithme de détection de tonalité personnalisé appelé Kits Hybrid Pitch, qui surpasse les méthodes de base Crepe, RMVPE et Mangio-Crepe, entraînant de meilleurs résultats.
Métriques pour RMVPE
Métriques pour hybride
Open Source : RVC avec RMVPE
Kits hybrides
Récupération de contenu adaptatif
KVC utilise la fonctionnalité d'extraction de contenu adaptatif, ce qui entraîne des niveaux de similarité des locuteurs plus élevés par rapport aux systèmes d'extraction SVC standard comme RVC. Lors de l'inférence, Kits VC prend des caractéristiques d'entrée et applique la force d'extraction de manière adaptative : plus les caractéristiques sont alignées, plus les caractéristiques de contenu sont attirées vers l'extraction.
Cela se traduit par une meilleure préservation du contenu phonémique, entraînant des améliorations dans la prononciation et la similarité des locuteurs.
Open Source : Contentvec + recherche du voisin le plus proche
Kits : récupération de fonctionnalités adaptatives
Encodage de contenu avancé : Xeus, Hybride
Les systèmes SVC open-source utilisent des poids Hubert ou ContentVec. KVC est intégré à la fois avec ContentVec, ainsi qu'avec des encodeurs de contenu avancés comme Xeus et des systèmes hybrides, ce qui peut conduire à des améliorations de la prononciation. Des exemples sont inclus ci-dessous.
Prétraitement de la formation
Tranchage intelligent
KVC utilise une méthode de découpe plus intelligente pour s'entraîner sur des phrases plus longues et plus complètes, évitant de couper au milieu d'un mot ou d'une phrase.
Suppression du bruit et de la respiration
KVC comprend des étapes supplémentaires pour l'élimination du bruit adaptatif afin d'améliorer la qualité.
Équilibre spectral avec EQ adaptatif
KVC inclut un réglage automatique de l'EQ à la fois pendant l'entraînement et l'inférence, ce qui entraîne un meilleur équilibre spectral et une parité entre l'audio d'entrée et de sortie.
Post-traitement d'inférence
Correction de tonalité
La correction automatique de la hauteur, inspirée par des outils comme Antares Auto-Tune, est appliquée de manière optionnelle lors de la conversion.
Effets Stylistiques
Des effets stylistiques tels que l'élargissement stéréo et la réverbération sont intégrés directement dans le pipeline d'inférence, améliorant la qualité stylistique des sorties vocales.
Exemples audio
Stabilité de lacet
Alors que les poids Open Source sont principalement entraînés sur des données vocales, les poids de base de KVC sont optimisés pour le chant. Le résultat : des notes plus riches et plus claires sur l'ensemble (et même au-delà) de la portée d'un chanteur.
Source Ouverte (RVC)
Kits VC
Énergie vocale
Avec KVC, le niveau d'énergie dans un fichier d'entrée est reproduit de manière beaucoup plus réaliste qu'avec des alternatives open source. Les fluctuations de volume, la respiration et les attaques de notes douces aboutissent à un résultat beaucoup plus naturel.
Source Ouverte (RVC)
Kits VC
Volume
Grâce à un prétraitement adaptatif, KVC traite les artefacts de volume courants dans les conversions RVC open source.
Source Ouverte (RVC)
Kits VC
Qualité Sonic
Sans un traitement EQ et de plage dynamique soigneux, un modèle vocal peut rapidement sonner de manière désagréable. KVC équilibre de manière adaptative le volume et la réponse en fréquence des ensembles de données d'entraînement pour des conversions douces et à faible distorsion.
Source Ouverte (RVC)
Kits VC
Pitch/Fry vocal
Grâce aux améliorations apportées à la détection de la hauteur, à la récupération des caractéristiques et à la résolution temporelle, KVC améliore les subtiles inflexions telles que le vocal fry et les styles de chant souffle.