Kits et Descript : Outils d'IA pour les créateurs audio
Écrit par
Publié le
19 mars 2024
Au cours des dernières années de la révolution de l'intelligence artificielle, beaucoup d'attention a été portée sur ce que l'IA peut faire pour les artistes visuels. Des milliards de personnes ont expérimenté des outils comme Dall-E, Midjourney et l'outil de remplissage génératif de Photoshop pour créer des images avec l'IA.
Mais saviez-vous qu'il existe des outils similaires pour les projets audio ? Les musiciens, producteurs, podcasteurs, streamers, monteurs vidéo, et bien d'autres peuvent utiliser l'IA pour améliorer chaque étape de leur flux de travail.
Dans cet article, nous allons examiner deux des outils audio IA les plus populaires : Kits, une plateforme vocale IA pour la musique, et Descript, un éditeur audio alimenté par l'IA pour les podcasts.
Outils Vocaux AI de Kits
Kits est un outil de production musicale puissant qui utilise l'IA pour créer un audio de haute qualité. Avec Kits, vous pouvez inverser un chanteur en un autre et cloner la voix d'un chanteur. Les opportunités créatives sont infinies.
Conversion de Voix
Kits est construit autour de Convert, qui change la voix d'un chanteur en une voix complètement différente. Alors que d'autres outils IA font cela pour la parole, Kits est le premier à l'offrir pour le chant. Les résultats sont si bons qu'ils peuvent passer pour des chanteurs professionnels enregistrés dans un studio haut de gamme, ce qui en fait un outil extrêmement polyvalent pour les producteurs.
Il suffit de télécharger un fichier ou d'enregistrer directement dans l'application web. En quelques secondes, votre mélodie aura un tout nouveau chanteur !
Vous pouvez affiner la conversion avec des contrôles avancés :
Supprimez les instrumentaux, la réverbération et le délai, et/ou les voix de fond de votre enregistrement pour de meilleurs résultats.
Transposez : Élevez ou abaissez la tonalité jusqu'à 24 demi-tons.
Force de Conversion : Ajoute plus d'accent et d'articulation à la génération, mais peut provoquer des résultats inattendus à des niveaux élevés.
Mélange de Volume : Contrôlez l'équilibre entre le volume d'entrée et le modèle. Des valeurs plus basses révèlent davantage de la dynamique originale.
Effets de Pré-traitement : Réduisez le bruit, le grondement et la dureté, lissez le volume et/ou autotunez avant la génération.
Effets de Post-traitement : Appliquez un compresseur, un chorus, une réverbération et/ou un délai au résultat.
Tutoriel de Formation de Voix
La fonctionnalité la plus futuriste de Kits est la Formation de Voix. Il suffit de télécharger un fichier audio et Kits forme un modèle IA pour créer un clone parfait de la voix du chanteur. Cette nouvelle voix peut être utilisée à la place d'une voix standard ou mélangée pour toute conversion (plus d'infos sur celles-ci ci-dessous).
Kits propose le meilleur outil de clonage vocal disponible pour les chanteurs. D'autres outils IA l'offrent pour la parole, y compris Descript que nous couvrirons en détail ci-dessous. Cependant, Descript utilise cette fonction principalement pour corriger des erreurs ou pour des générations simples de texte à voix. Kits vous permet d'utiliser sans effort le modèle vocal formé pour des conversions, ce qui est un avantage majeur.
Pour entraîner la voix, Kits accepte tout format audio enregistré. Il recommande 10 minutes pour les meilleurs résultats, mais accepte jusqu'à une heure. (Pour comparaison, Descript vous demande de lire un script spécifique à utiliser comme modèle vocal.) À partir de là, il suffit d'ajouter un nom et une photo, puis d'entraîner votre nouvelle voix ! Elle sera enregistrée dans votre Bibliothèque de Voix pour une utilisation future.
Bibliothèque de Voix
Kits propose plus de 150 voix d'artistes dans sa Bibliothèque de Voix. Chacune est nommée d'après son sexe et son genre, comme Male Afro Beat ou Female Bedroom Pop. Vous pouvez trier la bibliothèque par gamme de tonalité, sexe et genre, et il existe même des voix pour d'autres langues et styles de musique du monde. Elles sont toutes complètement libres de droits, donc vous pouvez les utiliser comme bon vous semble.
Pour personnaliser davantage votre son, vous pouvez combiner deux voix avec le Blender de Voix. Le curseur de Ratio de Mélange contrôle la quantité de chaque voix à utiliser pour entraîner le nouveau modèle.
De plus, Kits propose des instruments, notamment guitare, basse, saxophone et violoncelle. Cela vous permet de créer sans effort des instrumentaux : enregistrez-vous rapidement en train de chanter ou de fredonner une partie, puis convertissez-la en voix d'instrument.
Texte-à-Parole
Kits propose également une fonction de texte-à-parole en 14 langues, pour la narration, les voix off et d'autres contenus parlés. Puisque la Bibliothèque de Voix de Kits est calibrée pour le chant, les résultats tendent à être plus naturels que d'autres IA. Entrez votre script, sélectionnez une gamme de tonalité et générez la parole. L'ensemble de la Bibliothèque de Voix peut être utilisé, ainsi que les voix mélangées et formées.
Amplificateurs Audio IA
Suppresseur de Voix
Un autre outil musical alimenté par l'IA dans Kits est le Suppresseur de Voix. Téléchargez une chanson et le Suppresseur de Voix sépare les voix de l'instrumental et d'autres bruits de fond. Les paramètres avancés permettent de supprimer les voix de fond et de basculer la réverbération, l'écho et la réduction de bruit. Avec l'IA intégrée, le Suppresseur de Voix de Kits tend à faire un meilleur travail que les logiciels traditionnels pour extraire précisément les voix, même lorsque des sons similaires se chevauchent.
Mastering IA
Le mastering est la phase finale du flux de travail de production musicale. La compression, le limitation, l'égalisation, et plus sont appliqués pour perfectionner le son final et s'assurer que les pistes individuelles s'harmonisent bien. Historiquement, cela a été l'un des éléments les plus difficiles et coûteux de la production, mais Kits IA permet même aux nouveaux producteurs de maîtriser des pistes en quelques secondes.
Kits propose six préréglages de mastering prédéfinis :
Léger & Lumineux
Graves Larges
Impact & Air
Luxurieux
Glue de Bande
Chaleur Analogique
Puisque le processus convivial ne prend que quelques secondes, vous pouvez expérimenter pour voir lequel fonctionne le mieux. Vous pouvez également télécharger une piste de référence, dont le son sera utilisé par Kits comme modèle.
Kits n'est pas seulement le plus puissant outil de chant IA sur le marché, mais un outil essentiel pour les producteurs de musique modernes. Il utilise l'IA pour améliorer chaque étape de la production vocale, vous permettant de produire de meilleures voix en moins de temps, moins d'argent et avec plus de créativité.
Descript : Éditeur de Podcast IA
Descript est l'un des outils les plus puissants disponibles aujourd'hui pour les podcasteurs, avec une riche suite de fonctions audio IA intégrées dans un éditeur de podcast basé sur le texte. (Descript propose également quelques outils de contenu vidéo, mais nous ne nous attarderons pas là-dessus ici.)
Attendez, éditeur audio basé sur le texte? Oui, Descript transcrit automatiquement votre audio afin que vous puissiez l'éditer comme un document, avec vos changements reflétés dans l'audio. Les longs enregistrements sont transcrits en quelques secondes et stockés en toute sécurité dans le cloud et chaque intervenant est automatiquement étiqueté. De plus, cela fonctionne dans 22 langues. En plus de cette expérience utilisateur unique, il existe une large gamme d'autres outils audio IA pour le montage vidéo :
Voix IA
Comme Kits, Descript inclut des voix standard qui peuvent être utilisées pour le texte-à-parole. Il y en a 21 au total avec des étiquettes pour décrire leur voix : Masculin ou Féminin, Plus jeune, Adulte ou Plus âgé, ainsi que des accents et des styles.
Descript dispose également d'une fonctionnalité de clonage vocal similaire à la Formation de Voix sur Kits. Il est intéressant de noter que Descript ne permet que de cloner votre propre voix. Pour vérifier cela, vous devez vous enregistrer en lisant un script spécial comme modèle. Votre voix peut être enregistrée pour être utilisée pour le texte-à-parole, ainsi que pour les futurs Overdubs de votre propre discours.
Régénérer Toute Transcription
Régénérer crée essentiellement un mini clone vocal (sans le processus plus long décrit ci-dessus), puis régénère un extrait sélectionné de texte dans la transcription d'enregistrement. Cela permet des modifications audio qui seraient impossibles sans l'IA -- et cela pourrait être la fonctionnalité la plus puissante de Descript.
Par exemple, imaginons que vous enregistriez chez vous et que la sonnette retentisse. Normalement, couper ce moment prendrait beaucoup de temps, et le faire assez proprement pour que les auditeurs ne le remarquent pas pourrait être impossible. Mais avec Descript, il suffit de localiser le moment dans la transcription, de le surligner et de cliquer sur Remplacer par → Régénérer. La parole générée par l'IA sera intégrée de manière fluide dans cette section de l'enregistrement original.
Et que se passe-t-il si vous appelez votre colocataire pour qu'il réponde à la porte ? Vous pouvez facilement supprimer les mots hors sujet de la transcription, mais cela laissera une déconnexion évidente que les auditeurs peuvent entendre. Il suffit de régénérer la phrase autour du splice et la voix IA s'alignera sur le ton et l'intonation pour masquer cela parfaitement.
Overdub
Sous Régénérer dans le menu Remplacer par se trouve Overdub. Au lieu d'utiliser la voix IA pour lisser les modifications, Overdub l'utilise pour insérer de nouveaux mots dans le podcast. Si vous prononcez mal un mot, loupez une ligne, ou simplement ne vous articulez pas aussi bien que vous le devriez, vous pouvez instantanément couper la partie indésirable et la remplacer par un overdub IA.
Puisque Descript identifie automatiquement les différents intervenants, l'overdub s'alignera automatiquement sur le bon intervenant. De plus, le nouvel audio s'alignera sur la qualité du micro, le bruit de fond et l'intonation de l'enregistrement environnant.
Son de Studio
Avec un clic, Sound Studio utilise des algorithmes pour rendre n'importe quel enregistrement professionnel. Il vous suffit d'activer le commutateur sous Effets Audio, et Sound Studio sépare les voix du bruit de fond pour améliorer les deux. Le curseur d'Intensité contrôle la force de l'effet appliqué. La voix sera amplifiée, si bien qu'un enregistrement rapide fait avec un iPhone ressemble à un microphone de haute qualité. Perfectionnez votre fichier vidéo et supprimez le bruit de fond, les sifflements et l'écho de la pièce en quelques étapes simples et intuitives.
Suppression de Mots de Remplissage
Chaque podcasteur a déjà connu cela : vous enregistrez un épisode et pensez avoir parfaitement réussi. Mais quand vous réécoutez, votre discours est truffé de "comme", "euh", de temps morts, et d'autres mots de remplissage. Ces petites choses peuvent malheureusement avoir un impact massif sur votre image.
La suppression de mots de remplissage est intégrée dans Descript, et comme le reste de ses fonctionnalités, elle est incroyablement simple à utiliser. Lorsque votre audio est transcrit, les mots de remplissage seront automatiquement soulignés. Cliquez sur l'icône en étoile, puis utilisez l'outil d'édition pour "Supprimer les mots de remplissage" et "Raccourcir les intervalles" pour nettoyer votre discours.
Trouver le Meilleur Outil IA Pour Vous
Kits et Descript sont à l'avant-garde de la production audio assistée par l'IA. Leurs outils fonctionnent simplement et élégamment pour améliorer votre flux de travail existant. Des outils puissants avec des prix puissants comme la Conversion de Voix et la Formation de Voix de Kits et l'éditeur basé sur le texte de Descript ouvrent des possibilités réactives qui n'ont jamais existé auparavant. De plus, des fonctionnalités comme le Suppresseur de Voix et le Mastering IA dans Kits et la Régénération et la Suppression de Mots de Remplissage dans Descript éliminent les aspects les plus longs et les plus ennuyeux de la production audio. Comment les outils audio IA vous rendront-ils un meilleur créateur ?