Voice Model Creation

Create the best possible voice model by creating a high-quality dataset using the tips below.

Voice Model Creation

Create the best possible voice model by creating a high-quality dataset using the tips below.

Voice Model Creation

Create the best possible voice model by creating a high-quality dataset using the tips below.

How to create your dataset.

How to create your dataset.

Rassemblez 30 à 60 minutes au total de voix sèches (sans effets) et monophoniques (une note à la fois).

- Pas de réverbération, retard, chœur ou instrumentaux,
- Pas d'harmonies, de superpositions, de double enregistrement, d'effets stéréo.
- Aucune variation dans les styles vocaux. Par exemple, seulement du chant ou seulement du rap mais pas les deux.

Mauvais chant

Mauvais chant

Mauvais chant

Stéréo, réverbération, retard

0:00/1:34

Bonnes voix

Bonnes voix

Bonnes voix

Tonalité claire mono, faible bruit

Préparation de votre/vos fichier(s).

Exportez vos fichiers sans silence et avec un volume constant en tant que fichier audio lossless de 16 bits (.wav de préférence).

Avant : silence, niveaux de volume incohérents

Après : silence tronqué, volume constant

Once you’ve compiled your vocals, the next step is to prepare your files for training:

Une fois que vous avez compilé vos voix, la prochaine étape consiste à préparer vos fichiers pour l'entraînement:

  • Supprimez tout silence supplémentaire (nous vous recommandons de le faire automatiquement avec Audacity)

  • Exportez en vrai mono (plutôt qu'en stéréo avec des canaux L + R égaux)

  • Exportez en .wav 16 bits (aucune exigence de durée audio, peut être un fichier de 15 minutes ou 15 fichiers de 1 minute)

Comment convertir en mono et supprimer le silence avec Audacity

Utilisez l'outil de séparation vocale Kits.AI pour isoler les voix de votre ensemble de données.

Pour isoler la voix d'une chanson, il vous suffit de télécharger un fichier ou de coller un lien YouTube dans l'outil de séparation vocale de Kits.AI. Il s'agit d'un moyen facile de créer votre propre ensemble de données.

Advanced dataset techniques.

Pré-traitez votre audio pour une meilleure qualité.

Votre audio peut être :

- égalisé proprement (soustractif) pour réduire les fréquences boueuses ou agressives dans l'enregistrement

- légèrement corrigé au niveau de la hauteur (attaque lente, force modérée) sauf s'il s'agit d'une partie essentielle du style vocal

- dé-essé pour réduire toute sibilance agressive

- légèrement compressé pour lisser la plage dynamique/réduire les pics (~4-5db de réduction de gain au maximum)

- boosté (égalisé additivement) pour correspondre au style vocal

- limité à un pic de -6db avec des niveaux globaux entre -6 et -12db

- filtré en passe-haut/passe-bas pour supprimer les fréquences en dessous de 40hz-100hz et au-dessus de 20khz

- re-équilibré en phase

Enregistrez votre propre voix.

Enregistrer des voix pour votre modèle? Voici quelques configurations pour vous aider à démarrer.:

- Utilisez un micro de qualité avec une large plage de fréquences (40hz–20khz)

- Réglez votre fréquence d'échantillonnage d'enregistrement à 48khz et votre type de fichier à sans perte (.wav, .aiff, .flac)

- Limitez les bruits de respiration et essayez de capturer une tonalité propre (évitez les explosifs, placez le micro hors axe et/ou utilisez un filtre anti-pop si vous chantez de manière respirante)

- Évitez les réflexions de la pièce (enregistrez dans une pièce avec des surfaces douces comme de la moquette et des meubles pour absorber le son, placez les microphones loin des murs, approchez-vous et réduisez votre gain d'entrée)

- Contrôlez le volume de votre enregistrement et évitez de dépasser -6db dBFS. Essayez de garder vos niveaux entre -12 et -6 dBFS.

- Exportez votre audio en vrai mono (plutôt qu'en stéréo avec des canaux L + R égaux)

- Évitez tout découpage brut sur l'audio (ajoutez une courte atténuation pour éviter les pops qui proviennent de la découpe audio avant ou après un passage par zéro)

Contenu

Plus de variété, c'est mieux.

Mieux vaut avoir des exemples couvrant toute votre gamme. Poitrine, mix, voix de tête ; intervalles larges et courts ; rugosité et notes claires ; etc. Plus il y a de variété, mieux c'est.

Vous pouvez chanter les mêmes paroles dans différentes tonalités, quelques chansons de votre répertoire, des compositions originales, etc. L'audio peut être présenté sous forme de plusieurs fichiers ou en une seule prise — tant que le temps de chant total atteint 10 à 15 minutes.

Techniques

Comment convertir en True Mono

Utilisez le programme Audacity gratuit pour convertir les fichiers stéréo en vraie mono.

Comment supprimer le silence

Utilisez le programme gratuit Audacity pour supprimer rapidement le silence d'un acapella.

(Copiez les paramètres de cette vidéo, mais n'hésitez pas à expérimenter. Choisissez un seuil entre -20db et -40db en fonction du niveau sonore de votre acapella.)

FAQ

Q: Combien de temps prend l'entraînement du modèle?

En fonction de la taille de vos données, l'entraînement du modèle peut prendre entre 30 minutes et plusieurs heures ! Mais ne vous inquiétez pas - dès que vous voyez "Entraînement" sur votre tableau de bord de création de voix, votre modèle va bientôt se terminer.

Q: Combien de temps prend l'entraînement du modèle?

En fonction de la taille de vos données, l'entraînement du modèle peut prendre entre 30 minutes et plusieurs heures ! Mais ne vous inquiétez pas - dès que vous voyez "Entraînement" sur votre tableau de bord de création de voix, votre modèle va bientôt se terminer.

Q: Combien de temps prend l'entraînement du modèle?

En fonction de la taille de vos données, l'entraînement du modèle peut prendre entre 30 minutes et plusieurs heures ! Mais ne vous inquiétez pas - dès que vous voyez "Entraînement" sur votre tableau de bord de création de voix, votre modèle va bientôt se terminer.

Q: Mon modèle prend une éternité à télécharger! Que se passe-t-il?

Si vous téléchargez un gros fichier, cela prend du temps pour transférer les données sur notre serveur. Appuyez simplement sur "Télécharger" et soyez patient - le traitement se fera finalement. Assurez-vous de ne pas actualiser la page pendant le téléchargement.

Q: Mon modèle prend une éternité à télécharger! Que se passe-t-il?

Si vous téléchargez un gros fichier, cela prend du temps pour transférer les données sur notre serveur. Appuyez simplement sur "Télécharger" et soyez patient - le traitement se fera finalement. Assurez-vous de ne pas actualiser la page pendant le téléchargement.

Q: Mon modèle prend une éternité à télécharger! Que se passe-t-il?

Si vous téléchargez un gros fichier, cela prend du temps pour transférer les données sur notre serveur. Appuyez simplement sur "Télécharger" et soyez patient - le traitement se fera finalement. Assurez-vous de ne pas actualiser la page pendant le téléchargement.

Q: Que dois-je faire si je vois une erreur?

Un: Si vous voyez une erreur lors du téléchargement, contactez-nous sur notre formulaire de bug!

A: Si vous voyez une erreur lors du téléchargement, contactez-nous sur notre formulaire de bug!

A: Si vous voyez une erreur lors du téléchargement, contactez-nous sur notre formulaire de bug!

Commencez gratuitement. Aucune carte de crédit requise.

Notre plan gratuit vous permet de voir comment Kits peut aider à rationaliser votre flux de travail vocal et audio. Lorsque vous êtes prêt à passer à l'étape suivante, les plans payants commencent à partir de 14,99 $ / mois.

Commencez gratuitement. Aucune carte de crédit requise.

Notre plan gratuit vous permet de voir comment Kits peut aider à rationaliser votre flux de travail vocal et audio. Lorsque vous êtes prêt à passer à l'étape suivante, les plans payants commencent à partir de 14,99 $ / mois.

Commencez gratuitement. Aucune carte de crédit requise.

Notre plan gratuit vous permet de voir comment Kits peut aider à rationaliser votre flux de travail vocal et audio. Lorsque vous êtes prêt à passer à l'étape suivante, les plans payants commencent à partir de 14,99 $ / mois.