Kits y Descript: Herramientas de IA para Creadores de Audio
Escrito por
Publicado el
19 de marzo de 2024
En los últimos años de la revolución de la inteligencia artificial, se ha prestado mucha atención a lo que la IA puede hacer por los artistas visuales. Miles de millones de personas han experimentado con herramientas como Dall-E, Midjourney y la herramienta Generative Fill de Photoshop para crear imágenes con IA.
¿Pero sabías que existen herramientas similares para proyectos de audio? Músicos, productores, podcasters, streamers, editores de video y más pueden utilizar la IA para mejorar cada paso de su flujo de trabajo.
En este artículo, veremos dos de las herramientas de audio de IA más populares: Kits, una plataforma vocal de IA para música, y Descript, un editor de audio potenciado por IA para podcasts.
Herramientas de Kits IA para Voces
Kits es un poderosa herramienta de producción musical que utiliza IA para crear audio de alta calidad. Con Kits, puedes convertir un cantante en otro y clonar la voz de un cantante. Las oportunidades creativas son infinitas.
Conversión de Voz
Kits se basa en Convert, que cambia la voz de un cantante por una completamente diferente. Mientras que otras herramientas de IA lo hacen para el habla, Kits es la primera en ofrecerlo para el canto. Los resultados son tan buenos que pueden pasar por cantantes profesionales grabados en un estudio de alta calidad, convirtiéndolo en una herramienta altamente versátil para los productores.
¡Solo sube un archivo o graba directamente en la aplicación web. En unos segundos, tu melodía tendrá un nuevo cantante!
Puedes afinar la Conversión con controles avanzados:
Elimina instrumentales, reverberación y retraso, y/o voces de fondo de tu grabación para mejores resultados.
Shift de Tonalidad: Aumenta o disminuye la tonalidad hasta 24 semitonos.
Fuerza de Conversión: Añade más acento y articulación a la generación, pero puede causar resultados inesperados a altos niveles.
Mezcla de Volumen: Controla el equilibrio entre el volumen de entrada y el modelo. Valores más bajos revelan más de la dinámica original.
Efectos de Pre-Procesamiento: Elimina ruido, retumbar y dureza, suaviza el volumen y/o ecualiza antes de la generación.
Efectos de Post-Procesamiento: Aplica compresor, coro, reverberación y/o retraso al resultado.
Tutorial de Entrenamiento de Voz
La función más futurista de Kits es el Entrenamiento de Voz. Simplemente sube un archivo de audio y Kits entrena un modelo de IA para crear una clonación perfecta de la voz del cantante. Esta nueva Voz se puede utilizar en lugar de una voz predeterminada o Blended para cualquier conversión (más detalles a continuación).
Kits ofrece la mejor herramienta de Clonación de Voz disponible para cantantes. Otras herramientas de IA también la ofrecen para el habla, incluyendo Descript, que cubriremos en detalle más adelante. Sin embargo, Descript utiliza esta función principalmente para corregir errores o generar textos en habla de manera sencilla. Kits te permite utilizar sin esfuerzo el modelo de voz entrenado para conversiones, lo que es una gran ventaja.

Para entrenar la voz, Kits permite cualquier formato de audio grabado. Recomienda 10 minutos para obtener mejores resultados, pero acepta hasta una hora. (Por comparación, Descript requiere que leas un guion específico para usar como plantilla de voz.) Desde allí, solo agrega un nombre y una foto, ¡y entrena tu nueva voz! Se guardará en tu Biblioteca de Voces para uso futuro.
Biblioteca de Voces
Kits ofrece más de 150 Voces de Artistas en su Biblioteca de Voces. Cada una está nombrada por su género y estilo, como Male Afro Beat o Female Bedroom Pop. Puedes clasificar la Biblioteca por rango de tonalidad, género y estilo, e incluso hay voces para otros idiomas y estilos de música mundial. Todas son completamente libres de regalías, así que puedes usarlas como desees.

Para personalizar aún más tu sonido, puedes combinar dos Voces con el Mezclador de Voces. La barra deslizante de Ratio de Mezcla controla cuánto de cada voz se utiliza en el entrenamiento del nuevo modelo.

Además, Kits ofrece instrumentos, incluidos la guitarra, el bajo, el saxofón y el violonchelo. Esto te permite crear instrumentales sin esfuerzo: solo graba rápidamente cantando o tarareando una parte, y luego conviértela en una voz de instrumento.
Texto A Voz
Kits también ofrece una función de texto a voz en 14 idiomas, para narraciones, doblajes y otros contenidos hablados. Dado que la Biblioteca de Voces de Kits está calibrada para cantar, los resultados tienden a ser más naturales que otros AIs. Ingresa tu guion, selecciona un rango de tonalidad y genera la voz. Se puede utilizar toda la Biblioteca de Voces, además de voces Blended y Entrenadas.

Mejoradores de Audio IA
Eliminador de Voces
Otra herramienta musical impulsada por IA en Kits es el Eliminador de Voces. Sube una canción y el Eliminador de Voces separa las voces de los instrumentales y otros ruidos de fondo. Las configuraciones avanzadas te permiten eliminar voces de fondo, y alternar la reverberación, eco y reducción de ruido. Con IA incorporada, el Eliminador de Voces de Kits tiende a hacer un mejor trabajo que el software tradicional al extraer con precisión las voces incluso cuando hay sonidos similares superpuestos.

Dominación IA
La dominación es la fase final del flujo de trabajo de producción musical. Se aplican compresión, limitación, ecualización y más para perfeccionar el sonido final y asegurarse de que las pistas individuales funcionen bien juntas. Históricamente, este ha sido uno de los elementos más difíciles y costosos de la producción, pero Kits AI permite incluso a nuevos productores dominar pistas en segundos.
Kits ofrece seis preajustes de dominación ya hechos:
Ligero & Brillante
Pesado en Bajos
Golpe & Aire
Exuberante
Adhesivo de Cinta
Calor Analógico
Dado que el proceso fácil de usar lleva solo segundos, puedes experimentar para ver cuál funciona mejor. También puedes subir una pista de referencia, cuyo sonido Kits usará como modelo.

Kits no solo es la herramienta de canto de IA más poderoso en el mercado, sino una herramienta esencial para los productores de música modernos. Utiliza IA para mejorar cada etapa de la producción vocal, permitiéndote producir mejores voces en menos tiempo, con menos dinero y más creatividad.
Descript: Editor de Podcast IA
Descript es una de las herramientas más poderosas disponibles hoy para podcasters, con una rica suite de funciones de audio IA basadas en un editor de podcast basado en texto. (Descript también ofrece algunas herramientas de contenido de video, pero no entraremos en ellas aquí.)
Espera, ¿editor de audio basado en texto? Sí, Descript transcribe automáticamente tu audio para que puedas editarlo como un documento, con tus cambios reflejados en el audio. Grabaciones largas se transcriben en segundos y se almacenan de forma segura en la nube y cada hablante se etiqueta automáticamente. Además, funciona en 22 idiomas. Encima de esta experiencia de usuario única hay una amplia gama de otras herramientas de audio IA para la edición de video:
Voces IA
Al igual que Kits, Descript incluye voces predeterminadas que pueden usarse para texto a voz. Hay 21 en total con etiquetas para describir su voz: Masculino o Femenino, Joven, Adulto o Mayor, además de acentos y estilos.

Descript también tiene una función de clonación de voz similar al Entrenamiento de Voz en Kits. Interesantemente, Descript solo te permite clonar tu propia voz. Para verificar esto, debes grabarte leyendo un guion especial como plantilla. Tu voz puede guardarse para usar en texto a voz, así como para futuros Overdubs de tu propio habla.

Regenerar Cualquier Transcripción
Regenerar esencialmente crea una pequeña clonación de voz (sin el proceso más largo descrito anteriormente), luego regenera un fragmento seleccionado de texto en la transcripción de la grabación. Esto permite ediciones de audio que serían imposibles sin IA -- y podría ser la característica más poderosa de Descript.
Por ejemplo, digamos que estás grabando en casa y suena el timbre. Normalmente, cortar este momento sería un trabajo arduo, y hacerlo de manera lo suficientemente limpia para que los oyentes no lo noten podría ser imposible. Pero con Descript, solo ubica el momento en la transcripción, resáltalo y haz clic en Reemplazar Con → Regenerar. La voz generada por IA se integrará perfectamente sobre esa sección de la grabación original.
¿Y qué pasa si llamas a tu compañero de cuarto para que abra la puerta? Puedes fácilmente eliminar las palabras fuera de tema de la transcripción, pero dejará una desconexión obvia que los oyentes pueden escuchar. Solo regenera la frase alrededor del empalme y la voz de IA coincidirá con el tono y la entonación para ocultarlo perfectamente.
Overdub
Debajo de Regenerar en el menú Reemplazar Con está Overdub. En lugar de usar la voz de IA para suavizar las ediciones, Overdub la utiliza para insertar nuevas palabras en el podcast. Si pronuncias mal una palabra, fallas una línea o simplemente no articulas tan bien como deberías, puedes cortar instantáneamente la parte no deseada y reemplazarla con un overdub de IA.
Dado que Descript identifica automáticamente a diferentes hablantes, el overdub coincidirá automáticamente con el hablante correcto. Además, el nuevo audio coincidirá con la calidad del micrófono, el ruido de fondo y la entonación de la grabación circundante.

Sonido de Estudio
Con un solo clic, los algoritmos de Sonido de Estudio hacen que cualquier grabación suene profesional. Solo activa el interruptor debajo de Efectos de Audio, y Sonido de Estudio separa las voces del ruido de fondo para mejorar ambos. El control deslizante de Intensidad controla qué tan intensamente se aplica el efecto. La voz se mejorará, así que incluso una grabación rápida de iPhone sonará como un micrófono de alta calidad. Perfecciona tu archivo de video y elimina el ruido de fondo, siseo y eco de la habitación en pasos simples e intuitivos.
Eliminación de Palabras de Relleno
Todo podcaster ha experimentado esto: grabas un episodio y crees que lo hiciste genial. Pero cuando lo escuchas, tu discurso está plagado de “como”, “eh”, silencios, y otras palabras de relleno. Estas pequeñas cosas desafortunadamente pueden tener un gran impacto en cómo te perciben.
La eliminación de palabras de relleno está integrada en Descript, y como el resto de sus características, es increíblemente fácil de usar. Cuando tu audio está transcrito, las palabras de relleno se subrayarán automáticamente. Haz clic en el icono de estrella, luego usa la herramienta de edición para “Eliminar palabras de relleno” y “Acortar brechas de palabras” para limpiar tu discurso.

Encontrando la Mejor Herramienta de IA Para Ti
Kits y Descript están a la vanguardia de la producción de audio habilitada por IA. Sus herramientas funcionan de manera simple y elegante para mejorar tu flujo de trabajo existente. Herramientas poderosas con precios poderosos como la Conversión de Voz y el Entrenamiento de Voz de Kits y el editor basado en texto de Descript abren posibilidades reactivas que nunca han existido antes. Además, características como Eliminador de Voces y Dominación IA en Kits y Regenerar y Eliminación de Palabras de Relleno en Descript eliminan los aspectos más laboriosos y tediosos de la producción de audio. ¿Cómo harán las herramientas de audio IA que seas un mejor creador?