Kits et Descript : Outils d'IA pour les créateurs audio
Written by
Published on
19 mars 2024
Au cours des dernières années de la révolution de l'intelligence artificielle, une grande attention a été portée à ce que l'IA peut faire pour les artistes visuels. Des milliards de personnes ont expérimenté des outils comme Dall-E, Midjourney et l'outil de remplissage génératif de Photoshop pour créer des images avec l'IA.
Mais saviez-vous qu'il existe des outils similaires pour les projets audio? Les musiciens, les producteurs, les podcasteurs, les streamers, les monteurs vidéo et d'autres peuvent utiliser l'IA pour améliorer chaque étape de leur flux de travail.
Dans cet article, nous examinerons deux des outils audio IA les plus populaires: Kits, une plateforme vocale IA pour la musique, et Descript, un éditeur audio alimenté par IA pour les podcasts.
Outils audio IA de Kits pour les voix
Kits est un outil puissant de production musicale qui utilise l'IA pour créer de l'audio de haute qualité. Avec Kits, vous pouvez convertir un chanteur en un autre et cloner la voix d'un chanteur. Les possibilités créatives sont infinies.
Conversion vocale
Kits est construit autour de Convertir, qui change la voix d'un chanteur en une voix complètement différente. Alors que d'autres outils IA font cela pour la parole, Kits est le premier à l'offrir pour le chant. Les résultats sont si bons qu'ils peuvent passer pour des chanteurs professionnels enregistrés dans un studio haut de gamme, ce qui en fait un outil extrêmement polyvalent pour les producteurs.
Il vous suffit de télécharger un fichier, un lien vidéo YouTube ou d'enregistrer directement dans l'application web. En quelques secondes, votre mélodie aura un nouveau chanteur !
Vous pouvez affiner la Conversion avec des contrôles avancés:
Supprimer les instruments, la réverbération et le retard, et/ou les chœurs de votre enregistrement pour de meilleurs résultats.
Transposition: Augmentez ou diminuez la hauteur jusqu'à 24 demi-tons.
Force de conversion: Ajoute plus d'accent et d'articulation à la génération, mais peut causer des résultats inattendus à des niveaux élevés.
Balance de volume: Contrôle l'équilibre entre le volume d'entrée et le modèle. Des valeurs plus faibles révèlent plus de dynamique d'origine.
Effets de prétraitement: Élimine le bruit, les vibrations et la rudesse, adoucit le volume et/ou applique l'autotune avant la génération.
Effets de post-traitement: Applique un compresseur, un chœur, une réverbération et/ou un retard au résultat.
Tutoriel d'entraînement vocal
La fonction la plus futuriste de Kits est l'entraînement vocal. Il vous suffit de télécharger un fichier audio ou de coller un lien vidéo YouTube, et Kits entraîne un modèle IA pour créer un clone parfait de la voix du chanteur. Cette nouvelle voix peut être utilisée à la place d'une voix standard ou mélangée pour toute conversion (nous en parlerons plus en détail ci-dessous).
Kits propose le meilleur outil d'entraînement vocal disponible pour les chanteurs. D'autres outils IA l'offrent pour la parole, y compris Descript que nous étudierons en détail ci-dessous. Cependant, Descript utilise cette fonction principalement pour corriger les erreurs ou pour des générations simples de textes en parole. Kits vous permet d'utiliser facilement le modèle vocal entraîné pour les conversions, ce qui est un avantage majeur.
Pour entraîner la voix, Kits accepte n'importe quel format audio enregistré. Il recommande 10 minutes pour de meilleurs résultats, mais accepte jusqu'à une heure. (En comparaison, Descript vous demande de lire un script spécifique à utiliser comme modèle vocal.) Ensuite, ajoutez simplement un nom et une photo, puis entraînez votre nouvelle voix! Elle sera enregistrée dans votre bibliothèque vocale pour une utilisation future.
Bibliothèque vocale
Kits propose plus de 50 voix d'artistes dans sa bibliothèque vocale. Chacune est nommée en fonction de son genre et de son genre musical, comme Masculin Afro Beat ou Féminin Bedroom Pop. Vous pouvez trier la bibliothèque par plage de hauteur, genre et genre musical, et il existe même des voix pour d'autres langues et styles de musique du monde. Elles sont toutes totalement libres de droits, donc vous pouvez les utiliser comme bon vous semble.
Pour personnaliser davantage votre son, vous pouvez combiner deux voix avec le mélangeur vocal. Le curseur de ratio de mélange contrôle la quantité de chaque voix à utiliser pour former le nouveau modèle.
De plus, Kits propose des instruments, dont la guitare, la basse, le saxophone et le violoncelle. Cela vous permet de créer facilement des instrumentaux: enregistrez-vous rapidement en train de chanter ou de fredonner une partie, puis convertissez-la en voix d'instrument.
Text-to-speech
Kits propose également une fonctionnalité de text-to-speech dans 14 langues, pour la narration, les voix off et d'autres contenus parlés. Comme la bibliothèque vocale de Kits est calibrée pour chanter, les résultats ont tendance à être plus naturels que d'autres AIs. Entrez votre script, sélectionnez une plage de hauteur et générez la parole. Toute la bibliothèque vocale peut être utilisée, ainsi que des voix mélangées et entraînées.
Améliorateurs audio IA
Suppression vocale
Un autre outil musical alimenté par l'IA dans Kits est la Suppression vocale. Téléchargez une chanson ou un lien YouTube et la Suppression vocale sépare la voix des instruments et d'autres bruits de fond. Les paramètres avancés vous permettent de supprimer les chœurs et de basculer la réverbération, l'écho et la réduction du bruit. Avec l'IA intégrée, la Suppression vocale de Kits a tendance à mieux fonctionner que les logiciels traditionnels pour extraire précisément les voix même lorsque des sons similaires se chevauchent.
Mastering IA
Le mastering est la phase finale de la production musicale. La compression, la limitation, l'égalisation et bien d'autres sont appliquées pour perfectionner le son final et s'assurer que les pistes individuelles fonctionnent bien ensemble. Historiquement, cela a été un des éléments les plus difficiles et onéreux de la production, mais l'IA de Kits permet même aux nouveaux producteurs de masteriser des pistes en quelques secondes.
Kits propose six préréglages de mastering prêts à l'emploi:
Léger & Clair
Grave & Puissant
Punch & Air
Opulent
Adhérence magnétique sur cassette
Chaleur analogique
Étant donné que le processus convivial ne prend que quelques secondes, vous pouvez expérimenter pour voir lequel fonctionne le mieux. Vous pouvez également télécharger une piste de référence, dont le son sera utilisé par Kits comme modèle.
Kits n'est pas seulement l'outil de chant IA le plus puissant sur le marché, mais un outil essentiel pour les producteurs de musique modernes. Il utilise l'IA pour améliorer chaque étape de la production vocale, vous permettant de produire de meilleures voix en moins de temps, avec moins d'argent et plus de créativité.
Descript: Éditeur de podcast IA
Descript est l'un des outils les plus puissants disponibles aujourd'hui pour les podcasteurs, avec une riche suite de fonctions audio IA construite autour d'un éditeur de podcast basé sur du texte. (Descript propose également quelques outils de contenu vidéo, mais nous n'aborderons pas cela ici.)
Attendez, un éditeur audio basé sur du texte? Oui, Descript transcrit automatiquement votre audio pour que vous puissiez l'éditer comme un document, vos modifications étant reflétées dans l'audio. Les longs enregistrements sont transcrits en quelques secondes et stockés de manière sécurisée dans le cloud, et chaque intervenant est automatiquement étiqueté. De plus, il fonctionne dans 22 langues. En plus de cette expérience utilisateur unique, il existe une large gamme d'autres outils audio IA pour le montage vidéo:
Voix IA
Tout comme Kits, Descript inclut des voix standard qui peuvent être utilisées pour la synthèse vocale. Il y en a 21 au total avec des tags pour décrire leur voix: Masculine ou Féminine, Jeune, Adulte, ou Plus âgé, ainsi que des accents et des styles.
Descript a également une fonction de clonage vocal similaire à l'entraînement vocal sur Kits. De manière intéressante, Descript ne vous permet que de cloner votre propre voix. Pour vérifier cela, vous devez vous enregistrer en train de lire un script spécial comme modèle. Votre voix peut être enregistrée pour être utilisée pour la synthèse vocale, ainsi que pour des futures overdubs de votre propre discours.
Régénérer n'importe quelle transcription
Régénérer crée essentiellement un mini-clone vocal (sans le processus plus long décrit ci-dessus), puis régénère un morceau de texte sélectionné dans la transcription de l'enregistrement. Cela permet des éditions audio qui seraient impossibles sans l'IA -- et c'est peut-être la fonction la plus puissante de Descript.
Par exemple, supposez que vous enregistrez chez vous et que la sonnette sonne. Normalement, supprimer ce moment serait fastidieux, et le faire de manière suffisamment propre pour que les auditeurs ne le remarquent pas serait impossible. Mais avec Descript, il suffit de localiser le moment dans la transcription, de le surligner, et de cliquer sur Remplacer par → Régénérer. La parole générée par IA sera fusionnée de manière transparente sur cette section de l'enregistrement original.
Et si vous appelez votre colocataire pour répondre à la porte? Vous pouvez facilement supprimer les mots hors sujet de la transcription, mais cela laissera une rupture évidente que les auditeurs peuvent entendre. Il suffit de régénérer la phrase autour de la coupe et la voix IA correspondra parfaitement au ton et à l'intonation pour cacher cela parfaitement.
Overdub
Sous Régénérer dans le menu Remplacer par se trouve Overdub. Au lieu d'utiliser la voix IA pour lisser les éditions, Overdub l'utilise pour insérer de nouveaux mots dans le podcast. Si vous prononcez mal un mot, bafouillez une ligne, ou ne vous exprimez simplement pas aussi bien que vous le devriez, vous pouvez instantanément supprimer la partie indésirable et la remplacer par un overdub de l'IA.
Étant donné que Descript identifie automatiquement les différents intervenants, l'overdub correspondra automatiquement au bon intervenant. De plus, le nouvel audio correspondra à la qualité du micro, au bruit de fond et à l'intonation de l'enregistrement environnant.
Son de studio
En un clic, les algorithmes de son de studio rendent n'importe quel enregistrement professionnel. Il suffit d'activer l'interrupteur sous Effets audio, et Studio Sound sépare les voix du bruit de fond pour les améliorer toutes les deux. Le curseur d'intensité contrôle la force avec laquelle l'effet est appliqué. La voix sera améliorée, donc même un enregistrement rapide sur iPhone sonnera comme un microphone de haute qualité. Parfait pour votre fichier vidéo et pour supprimer le bruit de fond, le souffle et l'écho de la pièce en quelques étapes simples et intuitives.
Suppression des mots de remplissage
Chaque podcaster a vécu cela : vous enregistrez un épisode et vous pensez l'avoir super bien réalisé. Mais lorsque vous écoutez, votre discours est truffé de « comme », de « euh », de silences, et d'autres mots de remplissage. Ces petites choses peuvent malheureusement avoir un impact énorme sur votre image.
La suppression des mots de remplissage est intégrée dans Descript, et comme le reste de ses fonctionnalités, elle est incroyablement simple à utiliser. Lorsque votre audio est transcrit, les mots de remplissage seront automatiquement soulignés. Cliquez sur l'icône en forme d'étoile, puis utilisez l'outil d'édition pour « Supprimer les mots de remplissage » et « Raccourcir les pauses entre les mots » pour nettoyer votre discours.
Choisir le meilleur outil IA pour vous
Kits et Descript sont à la pointe de la production audio activée par l'IA. Leurs outils fonctionnent de manière simple et élégante pour améliorer votre flux de travail existant. Des outils puissants avec des tarifs avantageux comme la Conversion vocale et l'Entraînement vocal de Kits et l'éditeur basé sur du texte de Descript ouvrent des possibilités réactives qui n'ont jamais existé auparavant. De plus, des fonctionnalités comme la Suppression vocale et le mastering de l'IA dans Kits et le Regenerate et la suppression des mots de remplissage dans Descript éliminent les aspects les plus fastidieux et les plus chronophages de la production audio. Comment les outils audio IA feront-ils de vous un meilleur créateur?