Kits y Descript: Herramientas de IA para Creadores de Audio
Written by
Published on
19 de marzo de 2024
En los últimos años de la revolución de la inteligencia artificial, se ha centrado mucha atención en lo que la IA puede hacer por los artistas visuales. Miles de millones de personas han experimentado con herramientas como Dall-E, Midjourney y la herramienta Generative Fill de Photoshop para crear imágenes con IA.
Pero, ¿sabías que existen herramientas similares para proyectos de audio? Músicos, productores, podcasters, streamers, editores de video y más pueden usar IA para mejorar cada paso de su flujo de trabajo.
En este artículo, analizaremos dos de las herramientas de audio IA más populares: Kits, una plataforma vocal IA para música, y Descript, un editor de audio impulsado por IA para podcasts.
Herramientas de Voz IA de Kits
Kits es una poderosa herramienta de producción musical que utiliza IA para crear audio de alta calidad. Con Kits, puedes convertir a un cantante en otro y clonar la voz de un cantante. Las oportunidades creativas son infinitas.
Conversión de Voz
Kits está construido alrededor de Convertir, que cambia la voz de un cantante por una completamente diferente. Mientras que otras herramientas de IA hacen esto para el habla, Kits es el primero en ofrecerlo para el canto. Los resultados son tan buenos que pueden pasar por cantantes profesionales grabados en un estudio de alta gama, lo que lo convierte en una herramienta increíblemente versátil para los productores.
Solo sube un archivo, un enlace de video de YouTube o graba directamente en la aplicación web. ¡En pocos segundos, tu melodía tendrá un nuevo cantante!
Puedes ajustar la Conversión con controles avanzados:
Elimina instrumentales, reverberación y retraso, y/o voces de fondo de tu grabación para mejores resultados.
Shift de Pitch: Aumenta o baja el tono hasta 24 semitonos.
Fuerza de Conversión: Añade más acento y articulación a la generación, pero puede causar resultados inesperados en niveles altos.
Mezcla de Volumen: Controla el equilibrio entre el volumen de entrada y el modelo. Valores más bajos revelan más de la dinámica original.
Efectos de Pre-procesamiento: Elimina ruido, temblor y aspereza, suaviza el volumen, y/o ajusta con autotune antes de la generación.
Efectos de Post-procesamiento: Aplica compresor, coro, reverberación, y/o retraso al resultado.
Tutorial de Entrenamiento de Voz
La característica más futurista de Kits es Entrenamiento de Voz. Solo sube un archivo de audio o pega un enlace de video de YouTube, y Kits entrena un modelo de IA para crear un clon perfecto de la voz del cantante. Esta nueva voz puede ser utilizada en lugar de una voz estándar o mezclada para cualquier conversión (más sobre eso a continuación).
Kits ofrece la mejor herramienta de Entrenamiento de Voz disponible para cantantes. Otras herramientas de IA lo ofrecen para el habla, incluyendo Descript, que cubriremos en detalle a continuación. Sin embargo, Descript utiliza esta función principalmente para corregir errores o generar texto a voz simples. Kits te permite utilizar sin esfuerzo el modelo de voz entrenada para conversiones, lo que es una gran ventaja.
Para entrenar la voz, Kits permite cualquier formato de audio grabado. Recomienda 10 minutos para obtener los mejores resultados, pero acepta hasta una hora. (Para comparación, Descript requiere que leas un guion específico para utilizar como plantilla de voz.) A partir de ahí, solo añade un nombre y foto, ¡y entrena tu nueva voz! Se guardará en tu Biblioteca de Voces para uso futuro.
Biblioteca de Voces
Kits ofrece más de 50 Voces de Artista en su Biblioteca de Voces. Cada una lleva el nombre de su género y tipo, como Male Afro Beat o Female Bedroom Pop. Puedes ordenar la Biblioteca por rango de tono, género y estilo, e incluso hay voces para otros idiomas y estilos de música del mundo. Todas son completamente libres de royalties, así que puedes usarlas como quieras.
Para personalizar aún más tu sonido, puedes combinar dos Voces con el Mezclador de Voces. El control deslizante de la Proporción de Mezcla controla cuánto de cada voz utilizar en el entrenamiento del nuevo modelo.
Además, Kits ofrece instrumentos, incluyendo guitarra, bajo, saxofón y violonchelo. Esto te permite crear instrumentales sin esfuerzo: solo graba rápidamente tu voz cantando o tarareando una parte, y luego conviértela en una voz de instrumento.
Texto a Voz
Kits también ofrece una función de texto a voz en 14 idiomas, para narración, locuciones y otro contenido hablado. Dado que la Biblioteca de Voces de Kits está calibrada para el canto, los resultados tienden a ser más naturales que en otras IA. Ingresa tu guion, selecciona un rango de tono y genera el habla. Se puede usar toda la Biblioteca de Voces, además de voces mezcladas y entrenadas.
Mejoradores de Audio IA
Eliminador de Voces
Otra herramienta musical impulsada por IA en Kits es el Eliminador de Voces. Sube una canción o un enlace de YouTube y el Eliminador de Voces separa las voces del instrumental y otros ruidos de fondo. Los ajustes avanzados te permiten eliminar voces de fondo, y activar/desactivar reverberación, eco y reducción de ruido. Con la IA incorporada, el Eliminador de Voces de Kits tiende a hacer un mejor trabajo que el software tradicional al extraer voces con precisión, incluso cuando sonidos similares se superponen.
Masterización IA
La masterización es la fase final del flujo de trabajo de producción musical. Se aplican compresión, limitación, EQ y más para perfeccionar el sonido final y asegurarse de que las pistas individuales funcionen bien juntas. Históricamente, este ha sido uno de los elementos más difíciles y costosos de la producción, pero Kits IA permite incluso a nuevos productores masterizar pistas en segundos.
Kits ofrece seis presets de masterización predefinidos:
Ligero y Brillante
Pesado en Bajo
Pulso y Aire
Lujoso
Pegamento de Cinta
Cálido Analógico
Dado que el proceso fácil de usar toma solo unos segundos, puedes experimentar para ver cuál funciona mejor. También puedes subir una pista de referencia, cuyo sonido Kits usará como modelo.
Kits no solo es la herramienta de canto IA más poderosa en el mercado, sino una herramienta esencial para los productores de música moderna. Utiliza IA para mejorar cada etapa de la producción vocal, permitiéndote producir mejores voces en menos tiempo, con menos dinero y más creatividad.
Descript: Editor de Podcast IA
Descript es una de las herramientas más poderosas disponibles hoy para podcasters, con un rico conjunto de funciones de audio IA diseñadas en torno a un editor de podcast basado en texto. (Descript también ofrece algunas herramientas de contenido de video, pero no vamos a entrar en eso aquí.)
Espera, ¿editor de audio basado en texto? Sí, Descript transcribe automáticamente tu audio para que puedas editarlo como un documento, con tus cambios reflejados en el audio. Grabaciones largas se transcriben en segundos y se almacenan de forma segura en la nube y cada hablante se etiqueta automáticamente. Además, funciona en 22 idiomas. Encima de esta experiencia de usuario única, hay una amplia gama de otras herramientas de audio IA para edición de video:
Voces IA
Al igual que Kits, Descript incluye voces de stock que se pueden usar para texto a voz. Hay 21 en total con etiquetas para describir su voz: Masculina o Femenina, Joven, Adulto, o Mayor, además de acentos y estilos.
Descript también tiene una función de clonación de voz similar al Entrenamiento de Voz en Kits. Curiosamente, Descript solo te permite clonar tu propia voz. Para verificar esto, debes grabar tu voz leyendo un guion especial como plantilla. Tu voz se puede guardar para usar en texto a voz, así como en futuras sobredoblajes de tu propio discurso.
Regenerar Cualquier Transcripción
Regenerar esencialmente crea un mini clon de voz (sin el proceso más largo descrito anteriormente), luego regenera un fragmento de texto seleccionado en la transcripción de grabación. Esto permite modificaciones de audio que serían imposibles sin IA, y podría ser la característica más poderosa de Descript.
Por ejemplo, digamos que estás grabando en casa y suena el timbre de la puerta. Normalmente, cortar este momento sería una tarea que consumiria mucho tiempo, y hacerlo lo suficientemente limpio como para que los oyentes no lo noten podría ser imposible. Pero con Descript, solo localiza el momento en la transcripción, selecciónalo, y haz clic en Reemplazar con → Regenerar. El discurso generado por IA se insertará sin problemas sobre esa sección de la grabación original.
¿Y qué pasa si llamas a tu compañero de cuarto para que responda a la puerta? Puedes eliminar fácilmente las palabras fuera de tema de la transcripción, pero dejará una desconexión obvia que los oyentes pueden escuchar. Simplemente Regenera la frase alrededor de la intersección y la voz de IA coincidirá con el tono y la entonación para ocultarlo perfectamente.
Sobredoblaje
Debajo de Regenerar en el menú Reemplazar con se encuentra Sobredoblaje. En lugar de usar la voz de IA para suavizar ediciones, Sobredoblaje la utiliza para insertar nuevas palabras en el podcast. Si pronuncias mal una palabra, cometes un error en una línea, o simplemente no te articulas tan bien como deberías, puedes eliminar instantáneamente la parte no deseada y reemplazarla con un sobredoblaje de IA.
Dado que Descript identifica automáticamente a los diferentes hablantes, el sobredoblaje coincidirá automáticamente con el hablante correcto. Además, el nuevo audio coincidirá con la calidad del micrófono, el ruido de fondo y la entonación de la grabación circundante.
Sonido de Estudio
Con un clic, Sonido de Estudio’s algoritmos hacen que cualquier grabación suene profesional. Solo activa el interruptor en Efectos de Audio, y Sonido de Estudio separa las voces del ruido de fondo para mejorar ambos. El control deslizante de Intensidad controla la fuerza con la que se aplica el efecto. La voz se mejorará, así que incluso una rápida grabación con iPhone suena como un micrófono de alta calidad. Perfecciona tu archivo de video y elimina el ruido de fondo, el susurro y el eco de la habitación en pasos simples e intuitivos.
Eliminación de Palabras Relleno
Cualquier podcaster ha experimentado esto: grabas un episodio y piensas que lo has aplastado. Pero cuando escuchas de nuevo, tu discurso está lleno de “como”, “um”, silencios y otros rellenos. Estas pequeñas cosas pueden, desafortunadamente, tener un impacto enorme en cómo te perciben.
La eliminación de palabras de relleno está integrada en Descript, y como el resto de sus características, es increíblemente simple de usar. Cuando tu audio se transcribe, las palabras de relleno se subrayan automáticamente. Haz clic en el ícono de estrella, luego usa la herramienta de edición para “Eliminar palabras de relleno” y “Acortar espacios entre palabras” para limpiar tu discurso.
Encontrando la Mejor Herramienta IA Para Ti
Kits y Descript están a la vanguardia de la producción de audio habilitada por IA. Sus herramientas funcionan de manera simple y elegante para mejorar tu flujo de trabajo existente. Herramientas poderosas con precios poderosos como la Conversión de Voz y Entrenamiento de Voz de Kits y el editor basado en texto de Descript abren posibilidades reactivas que nunca antes existieron. Además, características como el Eliminador de Voces y la Masterización IA en Kits y Regenerar y Eliminación de Palabras Relleno en Descript eliminan los aspectos más tediosos y que consumen tiempo de la producción de audio. ¿Cómo te ayudarán las herramientas de audio IA a ser un mejor creador?