Kits AI: ElevenLabs para música AI y canto AI
Escrito por
Publicado el
22 de febrero de 2024
El Generador de Voz AI para Productores, Cantantes y Músicos
¿Has utilizado ElevenLabs para crear voces en off profesionales para tu contenido? La revolución de la inteligencia artificial está arrasando en la creación de contenido, con herramientas como ElevenLabs que te permiten crear narraciones de voz AI realistas de alta calidad para podcasts y otras creaciones de audio más rápido y más barato que nunca.
Ahora, los productores y cantantes están utilizando una tecnología similar de habla y AI para su música. Kits AI puede crear melodías principales impresionantes y voces de fondo, reemplazar cantantes con uno de un estilo diferente, e incluso clonar una voz real. Y suena tan bien que ni siquiera notarás que es AI.
Comparémos los Kits y ElevenLabs para ver qué herramienta vocal de AI es mejor para tu trabajo.
Comparación entre Kits y ElevenLabs
Tanto ElevenLabs como Kits pueden crear narraciones y voces en off que suenan humanas utilizando texto a voz. Pero solo Kits puede crear cantantes de AI y convertir grabaciones cantadas, incluyendo música mixta con instrumentos y voces de fondo. El proceso es igualmente simple para ambas herramientas.
ElevenLabs te permite generar habla de dos maneras: texto a voz y voz a voz. En este último, el hablante en una grabación existente es reemplazado por una voz de stock, una voz personalizada que tú creas, o una voz clonada. (Más sobre eso más adelante.) Una vez que ingresas texto o subes un archivo, se te pedirá que elijas una voz y un modelo. (ElevenLabs ofrece varios modelos de AI, pero se recomienda Eleven Multilingual V2 para la mayoría de los propósitos.) Luego puedes establecer cuatro configuraciones para tu salida:
Estabilidad: Una mayor estabilidad hará que la voz sea más consistente a lo largo de las generaciones, pero los resultados pueden sonar más monótonos y artificiales.
Claridad + Similitud: Esto mejora la salida para que sea más fácil de entender y más similar al original en voz a voz, pero puede causar artefactos (inclusiones no deseadas y quizás extrañas).
Exageración de Estilo: Este control deslizante está configurado en cero por defecto para velocidades más rápidas. Aumentarlo puede estilizar subidas planas o monótonas, pero también puede causar resultados extraños en niveles altos.
Aumento de Voces: Marca esta casilla para aumentar la similitud de la salida con el hablante original en una generación de voz a voz.
Kits ofrece un rango similar de características, pero con formatos y configuraciones de carga adicionales diseñados para productores de música y cantantes junto con acceso a API para aplicaciones. La principal diferencia entre las dos herramientas es que Kits ofrece generación de voz a voz para cantar. Sube una canción, elige un Generador de Voz AI, mezcla o clona tu voz y genera tu melodía con un nuevo cantante!
Kits AI ofrece una serie de configuraciones avanzadas para personalizar tu pista vocal:
Eliminar instrumentales, reverberación y delay, y/o voces de fondo de tu grabación para mejores resultados, instantáneamente en Kits.
Cambio de Tonalidad: Aumenta o disminuye la tonalidad hasta 24 semitonos.
Fuerza de Conversión: Agrega más acento y articulación a la generación, pero puede causar resultados inesperados en niveles altos.
Mezcla de Volumen: Controla el equilibrio entre el volumen de entrada y el modelo. Valores más bajos revelan más de la dinámica original.
Efectos de Pre-Procesamiento: Corta ruidos, zumbidos y dureza, suaviza el volumen, y/o autotune antes de la generación.
Efectos de Post-Procesamiento: Aplica compresores, coro, reverberación, y/o delay a tu resultado final.
Generadores de Voz AI y Canto AI: Chatgpt para Audio
Las voces prehechas son la forma más sencilla de utilizar ElevenLabs y Kits, y ambas ofrecen una amplia gama de opciones de alta calidad.
ElevenLabs ofrece más de 40 voces prehechas para la generación de voz. Cada una tiene un nombre y etiquetas para su acento, carácter o calidad (“marinero”, “exagerado”, “susurro”, etc.), y su uso recomendado, como audiolibros, videojuegos, ASMR, y más. Además, hay una Biblioteca de Voces que contiene miles más de usuarios, incluyendo clones de actores de voz profesionales y sonidos generados por AI.
Kits también ofrece más de 50 Voces de Artistas en stock. Reflejando el enfoque musical de Kits, las voces están nombradas de acuerdo a su género y timbre. Por ejemplo, dos de los más populares son Rock Masculino Rugoso y Jazz Femenino. Puedes clasificar las voces de Kits por rango de tonalidad, género y estilo. Además, Kits ofrece algunos instrumentos en stock, incluyendo guitarra, bajo, saxofón y violonchelo. Estos pueden ser utilizados para convertir melodías cantadas en instrumentales.
Tutorial de Clonación de Voz AI
Tanto Kits como ElevenLabs te permiten clonar voces reales para usar en futuras generaciones. ElevenLabs trabaja muy bien con grabaciones habladas para narraciones y voces en off, mientras que Kits está diseñado para cantar y música.
Kits AI llama a este proceso "entrenar una voz". Simplemente sube un archivo de audio. Kits acepta cargas de hasta 60 minutos, pero recomienda una duración de 10 minutos para optimizar velocidad y calidad. Para obtener los mejores resultados, utiliza una grabación con solo voces limpias (sin reverberación, armonías o ruido de fondo). Usa el micrófono de la más alta calidad que puedas y cuantas más vocales y tonos se utilicen, mejor.
A partir de ahí, puedes optar por limpiar las voces y eliminar instrumentales. Agrega un nombre y una foto, ¡y entrena tu nueva voz! (Este proceso puede tomar algo de tiempo, así que sé paciente). Una vez terminado, puedes usar esta nueva voz para cualquier cosa que quieras crear.
En ElevenLabs, el proceso se llama Clonación de Voz Instantánea. Sube hasta 25 archivos de audio o video, de hasta 10 MB cada uno. El sitio advierte que la calidad importa más que la cantidad; más allá de 5 minutos de discurso subido, las mejoras son mínimas. Luego, dale un nombre, selecciona etiquetas, escribe una descripción rápida, ¡y listo!
Herramientas AI para Creación de Voz
Ambas herramientas te permiten crear nuevas voces desde cero. Esta es una gran alternativa a las voces de stock o clonadas, cuando deseas un sonido completamente nuevo y único.
Generaciones de Texto AI de ElevenLabs
Las características de Diseño de Voz de ElevenLabs te permiten crear nuevas voces y contenido de audio estableciendo el género, la edad, el acento y la intensidad del acento. Puedes guardar la voz en la Biblioteca de Voces para usarla nuevamente y compartirla con otros. Se generan nuevas voces cada vez, así que incluso si otra persona selecciona los mismos parámetros exactos, el resultado no será el mismo.
En Kits AI, puedes crear voces personalizadas utilizando el Mezclador de Voces o editar voces existentes con las Variedades de Voz. En lugar de múltiples parámetros, simplemente seleccionas dos voces para combinar y estableces una proporción de mezcla. Puedes mezclar dos voces de stock, voces entrenadas, o una de cada una. Las voces mezcladas se guardarán en Mis Voces, para que puedas usarlas para conversiones de texto a voz o canto.
Características Únicas que Hacen de Kits el Mejor Generador de Voz AI
Cada herramienta tiene aplicaciones impresionantes que satisfacen a su usuario objetivo. En Kits, los productores de música, cantantes y músicos tienen acceso a un Removedor de Voces AI, que puede extraer al cantante de música mezclada, y dejarlo solo en un archivo limpio.
Kits también ofrece modelos de instrumentos , incluyendo guitarra, bajo, saxofón, y más. Estos permiten generar melodías subidas como instrumentos y ajustar tus creaciones. ¿No tocas el violonchelo? No necesitas contratar a un chelista o siquiera usar instrumentos MIDI. ¡Simplemente canta la parte del violonchelo en Kits y gérala en la voz de Violonchelo!
La característica más única de ElevenLabs es el doblaje de video AI. Sube un archivo de video o un enlace de redes sociales, luego elige un idioma de destino. ElevenLabs detectará el idioma original y el número de hablantes, y luego doblará automáticamente el video en uno de los 29 idiomas de destino, incluyendo inglés, español y griego, todo mientras preserva el carácter individual de la voz de cada hablante. Este es un cambio importante para los creadores de contenido que buscan un público global.
Conclusión
El discurso generado por AI está tomando el control de la creación de contenido, y la tecnología está mejorando cada día. Las herramientas de voz en off y narración generadas por AI como ElevenLabs ya son comunes en las redes sociales, y los cantantes de AI de Kits se están convirtiendo en la próxima gran tendencia en la producción musical. Ambos ofrecen generación de texto a voz y voz a voz, clonación de voz, creación de voz, y más.
Entonces, ¿cuál es el adecuado para ti? Realmente se reduce a hablar versus cantar. ElevenLabs ofrece numerosas voces, largos límites de caracteres y personalización detallada, lo que lo convierte en perfecto para el mejor contenido hablado de texto y doblaje. Para cantar y música, Kits gana fácilmente. Con voces libres de regalías para cada género y estilo, formatos nativos de DAW, un removedor de voces, voces instrumentales, y más, puedes crear tus propias voces impulsadas por AI para tu música con Kits.