Kits AI: ElevenLabs para música AI y canto AI
Escrito por
Publicado el
22 de febrero de 2024
El Generador de Voz AI para Productores, Cantantes y Músicos
¿Has utilizado ElevenLabs para crear voces en off con calidad profesional para tu contenido? La revolución de la inteligencia artificial está arrasando en la creación de contenido, con herramientas como ElevenLabs que te permiten crear narraciones de voz AI realistas y de alta calidad para pódcast y otras creaciones de audio más rápido y más barato que nunca.
Ahora, los productores y cantantes están utilizando tecnología de voz y AI similar para su música. Kits AI puede crear melodías principales impresionantes y coros de apoyo, reemplazar cantantes por otros de un estilo diferente, e incluso clonar una voz real. ¡Y suena tan bien que ni siquiera notarás que es AI!
Compararemos Kits y ElevenLabs para ver cuál herramienta vocal AI es mejor para tu trabajo.
Comparando Kits y Elevenlabs
Tanto ElevenLabs como Kits pueden crear narraciones y voces en off que suenan humanas utilizando texto a voz. Pero solo Kits puede crear cantantes AI y convertir grabaciones cantadas, incluyendo música mezclada con instrumentos y coros. El proceso es igualmente simple para ambas herramientas.
ElevenLabs te permite generar voz de dos maneras: texto a voz y voz a voz. En este último, el hablante en una grabación existente es reemplazado por una voz de stock, una voz personalizada que creas, o una voz clonada. (Más sobre eso más adelante.) Una vez que ingresas el texto o subes un archivo, se te pedirá que elijas una voz y un modelo. (ElevenLabs ofrece múltiples modelos de AI, pero Eleven Multilingual V2 se recomienda para la mayoría de los propósitos.) Luego puedes configurar cuatro ajustes para tu salida:
Estabilidad: Una mayor estabilidad hará que la voz sea más consistente a lo largo de las generaciones, pero los resultados pueden sonar más monótonos y artificiales.
Claridad + Similitud: Esto mejora la salida para hacerla más fácil de entender y más similar al original en voz a voz, pero puede causar artefactos (inclusiones imprevistas que pueden sonar extrañas).
Exageración de Estilo: Este control está configurado en cero por defecto para velocidades más rápidas. Aumentarlo puede estilizar subidas planas o monótonas, pero también puede causar resultados extraños en niveles altos.
Aumento del Hablante: Marca esta casilla para aumentar la similitud de la salida con el hablante original en una generación de voz a voz.
Kits ofrece un rango similar de funciones, pero con formatos de carga y configuraciones adicionales construidas para productores musicales y cantantes, junto con acceso a API para aplicaciones. La diferencia clave entre las dos herramientas es que Kits ofrece generación de voz a voz para cantar. ¡Sube una canción, elige un Generador de Voz AI, mezcla o clona tu voz, y genera tu melodía con un nuevo cantante!
Kits AI ofrece una serie de configuraciones avanzadas para personalizar tu pista vocal:
Elimina instrumentales, reverberación y eco, y/o coros de apoyo de tu grabación para obtener mejores resultados, instantáneamente en Kits.
Cambio de Tonalidad: Aumenta o disminuye la tonalidad hasta 24 semitonos.
Intensidad de Conversión: Agrega más acento y articulación a la generación, pero puede causar resultados inesperados en niveles altos.
Mezcla de Volumen: Controla el equilibrio entre el volumen de entrada y el modelo. Valores más bajos revelan más de la dinámica original.
Efectos de Pre-Procesamiento: Corta ruido, retumbos y dureza, suaviza el volumen, y/o autotune antes de la generación.
Efectos de Post-Procesamiento: Aplica compresor, coro, reverberación y/o eco a tu resultado final
Generadores de Voz AI y Canto AI: Chatgpt para Audio
Las voces prehechas son la forma más simple de usar ElevenLabs y Kits, y ambos ofrecen una amplia variedad de opciones de alta calidad.
ElevenLabs ofrece más de 40 voces prehechas para la generación de voz. Cada una tiene un nombre y etiquetas para su acento, carácter o calidad (“marinero”, “hiperactivo”, “susurro”, etc.), y su uso recomendado, como audiolibros, videojuegos, ASMR, y más. Además, hay una Biblioteca de Voces que contiene miles más de usuarios, incluyendo clones de actores de voz profesionales y sonidos generados por AI.
Kits también ofrece más de 50 Voces de Artista de stock. Reflejando el enfoque musical de Kits, las voces están nombradas según su género y timbre. Por ejemplo, dos de los más populares son Rock Varado Masculino y Jazz Femenino. Puedes clasificar las voces de Kits por rango de tonalidad, género y estilo. Además, Kits ofrece algunos instrumentos de stock, incluyendo guitarra, bajo, saxofón y violonchelo. Estos se pueden usar para convertir melodías cantadas en instrumentales.
Tutorial de Clonación de Voz AI
Tanto Kits como ElevenLabs te permiten clonar voces reales para usar en generaciones futuras. ElevenLabs funciona de maravilla con grabaciones habladas para narraciones y voces en off, mientras que Kits está diseñado para cantar y música.
Kits AI llama a este proceso “entrenar” una voz. Simplemente sube un archivo de audio, tu propia voz, o pega un enlace de YouTube. Kits acepta cargas de hasta 60 minutos, pero recomienda una duración de 10 minutos para optimizar la velocidad y calidad. Para obtener los mejores resultados, usa una grabación solo con voces limpias (sin reverberación, armonías o ruido de fondo). Usa el micrófono de mayor calidad que puedas y cuantas más vocales y tonalidades se usen, mejor.
A partir de ahí, puedes optar por limpiar las voces y eliminar instrumentales. Agrega un nombre y una foto, ¡y luego entrena tu nueva voz! (Este proceso puede llevar algún tiempo, así que sé paciente.) Una vez terminado, puedes usar esta nueva voz para cualquier cosa que desees crear.
En ElevenLabs, el proceso se llama Clonación de Voz Instantánea. Sube hasta 25 archivos de audio o video, de hasta 10 MB cada uno. El sitio advierte que la calidad importa más que la cantidad; más allá de 5 minutos de discurso subido, las mejoras son mínimas. Luego, dale un nombre, selecciona etiquetas, escribe una descripción rápida, ¡y listo!
Herramientas AI para la Creación de Voz
Ambas herramientas te permiten crear nuevas voces desde cero. Esta es una gran alternativa a las voces de stock o a la clonación, cuando deseas un sonido totalmente nuevo y único.
Generaciones de Texto AI de Elevenlabs
Las características de Diseño de Voz de ElevenLabs te permiten crear nuevas voces y contenido de audio configurando el género, la edad, el acento y la fuerza del acento. Puedes guardar la voz en la Biblioteca de Voces para usarla de nuevo y compartirla con otros. Nuevas voces se generan cada vez, así que incluso si alguien más selecciona exactamente los mismos parámetros, el resultado no será el mismo.
En Kits AI, puedes crear voces personalizadas usando el Mezclador de Voces. En lugar de múltiples parámetros, simplemente seleccionas dos voces para combinar y configuras una proporción de mezcla. Puedes mezclar dos voces de stock, voces entrenadas, o una de cada una. Las voces mezcladas se guardarán bajo Mis Voces, para que puedas usarlas para conversiones de texto a voz o canto.
Características Únicas que Hacen de Kits el Mejor Generador de Voz AI
Cada herramienta tiene aplicaciones increíbles que se adaptan a su usuario objetivo. En Kits, los productores musicales, cantantes y músicos tienen acceso a un Removedor de Voz AI, que puede sacar al cantante de la música mezclada, y dejarlo en un archivo limpio.
Kits también ofrece modelos de instrumentos , incluyendo guitarra, bajo, saxofón y más. Estos te permiten generar melodías subidas como instrumentos y ajustar tus creaciones. ¿No tocas el violonchelo? No es necesario contratar a un chelista o incluso usar instrumentos MIDI. ¡Solo canta la parte de violonchelo en Kits y generala con la voz de Violonchelo!
La característica más única de ElevenLabs es el doblaje de video AI. Sube un archivo de video o un enlace de redes sociales, luego elige un idioma objetivo. ElevenLabs detectará el idioma original y el número de hablantes, y luego doblará automáticamente el video a uno de los 29 idiomas objetivos, incluyendo inglés, español y griego, todo mientras preserva el carácter individual de la voz de cada hablante. Esto es un cambio de juego para los creadores de contenido que apuntan a una audiencia global.
Conclusión
El discurso generado por AI está apoderándose de la creación de contenido, y la tecnología mejora cada día. Herramientas de voz y narración generativas como ElevenLabs ya son comunes en las redes sociales, y los cantantes AI de Kits están convirtiéndose en la próxima gran tendencia en la producción musical. Ambas ofrecen generación de texto a voz y voz a voz, clonación de voz, creación de voz, y más.
Entonces, ¿cuál es la adecuada para ti? Realmente depende de hablar versus cantar. ElevenLabs ofrece numerosas voces, límites de caracteres largos y personalización detallada, lo que la hace perfecta para el mejor contenido hablado y doblaje. Para cantar y música, Kits gana fácilmente. Con voces libres de regalías de stock para cada género y estilo, formatos nativos DAW, un removedor de voces, voces de instrumentos y más, puedes crear tus propias voces impulsadas por AI para tu música con Kits.