Kits y Descript: Herramientas de IA para Creadores de Audio
Escrito por
Publicado el
19 de marzo de 2024
En los últimos años de la revolución de la inteligencia artificial, se ha centrado mucha atención en lo que la IA puede hacer por los artistas visuales. Miles de millones de personas han experimentado con herramientas como Dall-E, Midjourney y la herramienta de Relleno Generativo de Photoshop para crear imágenes con IA.
Pero, ¿sabías que existen herramientas similares para proyectos de audio? Músicos, productores, podcasters, streamers, editores de video y más pueden usar IA para mejorar cada paso de su flujo de trabajo.
En este artículo, veremos dos de las herramientas de audio con IA más populares: Kits, una plataforma vocal de IA para música, y Descript, un editor de audio potenciado por IA para podcasts.
Herramientas de Vocales de Kits AI
Kits es una potente herramienta de producción musical que utiliza IA para crear audio de alta calidad. Con Kits, puedes convertir a un cantante en otro y clonar la voz de un cantante. Las oportunidades creativas son infinitas.
Conversión de Voz
Kits se basa en Convert, que cambia la voz de un cantante por una completamente diferente. Mientras que otras herramientas de IA hacen esto para el habla, Kits es la primera en ofrecerlo para el canto. Los resultados son tan buenos que pueden pasar por cantantes profesionales grabados en un estudio de alta gama, convirtiéndolo en una herramienta increíblemente versátil para los productores.
Solo sube un archivo o graba directamente en la aplicación web. En unos segundos, tu melodía tendrá un nuevo cantante!
Puedes ajustar la Conversión con controles avanzados:
Elimina instrumentales, reverb y retardo, y/o coros de fondo de tu grabación para obtener mejores resultados.
Cambio de Tonalidad: Aumenta o disminuye la tonalidad en hasta 24 semitonos.
Intensidad de Conversión: Añade más acento y articulación a la generación, pero puede causar resultados inesperados en niveles altos.
Mezcla de Volumen: Controla el equilibrio entre el volumen de entrada y el modelo. Valores más bajos revelan más de la dinámica original.
Efectos de Pre-Procesamiento: Corta ruido, retumbos y dureza, suaviza el volumen y/o autotunea antes de la generación.
Efectos de Post-Procesamiento: Aplica compresor, coro, reverb y/o retardo al resultado.
Tutorial de Entrenamiento de Voz
La característica más futurista de Kits es Entrenamiento de Voz. Solo sube un archivo de audio y Kits entrena un modelo de IA para crear un clon perfecto de la voz del cantante. Esta nueva voz puede usarse en lugar de una voz de stock o mezclada para cualquier conversión (más sobre eso más adelante).
Kits ofrece la mejor herramienta de Clonación de Voz disponible para cantantes. Otras herramientas de IA sí la ofrecen para el habla, incluyendo Descript, que cubriremos en detalle más abajo. Sin embargo, Descript usa esta función principalmente para corregir errores o generaciones simples de texto a voz. Kits te permite usar sin esfuerzo el modelo de voz entrenado para conversiones, lo que es una gran ventaja.
Para entrenar la voz, Kits permite cualquier formato de audio grabado. Recomienda 10 minutos para obtener los mejores resultados, pero acepta hasta una hora. (Para comparación, Descript requiere que leas un guion específico que usarás como plantilla de voz.) A partir de ahí, solo añade un nombre y una foto, ¡y luego entrena tu nueva voz! Se guardará en tu Biblioteca de Voces para su uso futuro.
Biblioteca de Voces
Kits ofrece más de 150 Voces de Artistas en su Biblioteca de Voces. Cada una está nombrada por su género y estilo, como Masculino Afro Beat o Femenino Bedroom Pop. Puedes ordenar la Biblioteca por rango de tono, género y estilo, y hay incluso voces para otros idiomas y estilos de música del mundo. Todas son completamente libres de regalías, así que puedes usarlas como quieras.
Para personalizar aún más tu sonido, puedes combinar dos Voces con el Mezclador de Voces. El control deslizante de Proporción de Mezcla controla cuánto de cada voz se usará en el entrenamiento del nuevo modelo.
Además, Kits ofrece instrumentos, incluyendo guitarra, bajo, saxofón y violonchelo. Esto te permite crear instrumentales de manera sencilla: solo graba rápidamente tu voz cantando o tarareando una parte, luego conviértela en una voz de instrumento.
Texto a Voz
Kits también ofrece una función de texto a voz en 14 idiomas, para narración, doblajes y otro contenido hablado. Dado que la Biblioteca de Voces de Kits está calibrada para el canto, los resultados tienden a ser más naturales que en otras IA. Introduce tu guion, selecciona un rango de tonalidad y genera el habla. Se puede usar toda la Biblioteca de Voces, además de voces mezcladas y entrenadas.
Mejoradores de Audio AI
Eliminador de Voces
Otra herramienta de música impulsada por IA en Kits es el Eliminador de Voces. Sube una canción y el Eliminador de Voces separa las vocales del instrumental y de otros ruidos de fondo. La configuración avanzada permite eliminar voces de fondo y alternar la reverb, eco y reducción de ruido. Con la IA integrada, el Eliminador de Voces de Kits tiende a hacer un mejor trabajo que el software tradicional al extraer vocales con precisión, incluso cuando los sonidos similares se superponen.
Masterización AI
La masterización es la fase final del flujo de trabajo de producción musical. Se aplican compresión, limitación, ecualización y más para perfeccionar el sonido final y asegurarse de que las pistas individuales funcionen bien juntas. Históricamente, este ha sido uno de los elementos más difíciles y caros de la producción, pero Kits AI permite incluso a nuevos productores masterizar pistas en segundos.
Kits ofrece seis presets de masterización premade:
Ligero y Brillante
Pesado en Bass
Impacto y Aire
Exuberante
Glue de Cinta
Calidez Analógica
Puesto que el proceso fácil de usar toma solo segundos, puedes experimentar para ver cuál funciona mejor. También puedes subir una pista de referencia, cuyo sonido Kits usará como modelo.
Kits no solo es la herramienta de canto con IA más poderosa en el mercado, sino una herramienta esencial para los productores de música modernos. Utiliza IA para mejorar cada etapa de la producción vocal, permitiéndote producir mejores voces en menos tiempo, menos dinero y con más creatividad.
Descript: Editor de Podcasts AI
Descript es una de las herramientas más poderosas disponibles hoy en día para podcasters, con un rico conjunto de funciones de audio de IA construidas alrededor de un editor de podcasts basado en texto. (Descript también ofrece algunas herramientas de contenido de video, pero no entraremos en detalles aquí.)
Espera, ¿editor de audio basado en texto? Sí, Descript transcribe automáticamente tu audio para que puedas editarlo como un documento, con tus cambios reflejados en el audio. Grabaciones largas son transcritas en segundos y almacenadas de forma segura en la nube, y cada hablante es etiquetado automáticamente. Además, funciona en 22 idiomas. Sobre esta experiencia de usuario única hay una amplia gama de otras herramientas de audio de IA para la edición de video:
Voces AI
Al igual que Kits, Descript incluye voces de stock que se pueden usar para texto a voz. Hay 21 en total con etiquetas para describir su voz: Masculina o Femenina, Más Joven, Adulto o Mayor, además de acentos y estilos.
Descript también tiene una función de clonación de voz similar al Entrenamiento de Voz en Kits. Curiosamente, Descript solo te permite clonar tu propia voz. Para verificar esto, debes grabarte leyendo un guion especial como plantilla. Tu voz se puede guardar para usar en texto a voz, así como en futuros Overdubs de tu propio discurso.
Regenerar Cualquier Transcripción
Regenerar esencialmente crea un mini clon de voz (sin el proceso más largo descrito anteriormente), luego regenera un texto seleccionado en la transcripción de la grabación. Esto permite ediciones de audio que serían imposibles sin IA -- y podría ser la característica más poderosa de Descript.
Por ejemplo, digamos que estás grabando en casa y suena el timbre. Normalmente, eliminar este momento sería muy complicado, y hacerlo lo suficientemente limpio como para que los oyentes no lo noten podría ser imposible. Pero con Descript, simplemente localiza el momento en la transcripción, resáltalo y haz clic en Reemplazar Con → Regenerar. El discurso generado por IA se incrustará sin problemas en esa parte de la grabación original.
¿Y si llamas a tu compañero de cuarto para que responda la puerta? Puedes eliminar fácilmente las palabras fuera de tema de la transcripción, pero eso dejará una desconexión obvia que los oyentes pueden escuchar. Simplemente Regenera la frase alrededor de la intersección y la voz de IA igualará el tono y la entonación para ocultarla perfectamente.
Overdub
Debajo de Regenerar en el menú Reemplazar Con se encuentra Overdub. En lugar de usar la voz de IA para suavizar ediciones, Overdub la usa para insertar nuevas palabras en el podcast. Si pronuncias mal una palabra, tropiezas con una línea o simplemente no te expresas tan bien como deberías, puedes eliminar instantáneamente la parte no deseada y reemplazarla con un overdub de IA.
Dado que Descript identifica automáticamente a los diferentes hablantes, el overdub coincidirá automáticamente con el hablante correcto. Además, el nuevo audio coincidirá con la calidad del micrófono, el ruido de fondo y la entonación de la grabación circundante.
Sonido de Estudio
Con un clic, Sonido de Estudio’s algoritmos hacen que cualquier grabación suene profesional. Simplemente activa el interruptor bajo Efectos de Audio, y Sonido de Estudio separa las voces del ruido de fondo para mejorar ambos. El control deslizante de Intensidad controla cuán fuertemente se aplica el efecto. La voz se mejorará, así que incluso una grabación rápida de iPhone suena como un micrófono de alta calidad. Perfecciona tu archivo de video y elimina el ruido de fondo, el silbido y el eco de la habitación en pasos simples e intuitivos.
Eliminación de Palabras Vacías
Todo podcaster ha experimentado esto: grabas un episodio y piensas que lo hiciste genial. Pero cuando lo escuchas de nuevo, tu discurso está lleno de “como,” “eh,” silencio y otras palabras vacías. Estas pequeñas cosas pueden, desafortunadamente, tener un gran impacto en cómo te perciben.
La Eliminación de Palabras Vacías está integrada en Descript, y al igual que el resto de sus características, es increíblemente simple de usar. Cuando tu audio es transcrito, las palabras vacías se subrayarán automáticamente. Haz clic en el ícono de estrella, luego usa la herramienta de edición para “Eliminar palabras vacías” y “Acortar vacíos en las palabras” para limpiar tu discurso.
Encontrando la Mejor Herramienta AI para Ti
Kits y Descript están a la vanguardia de la producción de audio habilitada por IA. Sus herramientas funcionan de manera simple y elegante para mejorar tu flujo de trabajo existente. Herramientas poderosas con precios poderosos, como la Conversión de Voces y el Entrenamiento de Voces de Kits y el editor basado en texto de Descript, abren posibilidades reactivas que nunca antes existieron. Además, características como el Eliminador de Voces y la Masterización AI en Kits y Regenerar y la Eliminación de Palabras Vacías en Descript eliminan los aspectos más tediosos y que consumen tiempo de la producción de audio. ¿Cómo te ayudarán las herramientas de audio de IA a convertirte en un mejor creador?