Errores comunes a evitar al usar voces de inteligencia artificial
Escrito por
Publicado el
23 de agosto de 2024
Introducción
Incorporar Voces de IA en tu música es una herramienta emocionante e innovadora para músicos y productores, gracias a los avances en inteligencia artificial. Como cualquier nueva tecnología, requiere un ajuste fino para obtener los mejores resultados. En Kits, procesamos conjuntos de datos para crear configuraciones ideales para un entrenamiento preciso y realista de modelos vocales de IA. Con el tiempo, he notado errores comunes que pueden obstaculizar el rendimiento de voces generadas por IA. En este artículo, resaltaré estas trampas y ofreceré consejos sobre cómo optimizar tus modelos vocales de IA.
Nivel y Dinámicas
La voz humana es única, al igual que una huella dactilar, con su propio timbre y matiz emocional. Cantar es, típicamente, una forma elevada de expresión emocional y puede variar naturalmente en volumen. Al grabar voces, estas variaciones a menudo se gestionan utilizando técnicas de micrófono y compresores. Los cantantes experimentados pueden “auto-comprimir” ajustando su distancia del micrófono durante secciones fuertes. Sin embargo, incluso con esta técnica, generalmente se necesita compresión adicional para mantener una mezcla equilibrada.
Así como la compresión natural beneficia a las canciones, también mejora el proceso de entrenamiento para modelos vocales de IA. En Kits AI, hemos descubierto que las pistas vocales con un rango dinámico controlado producen mejores resultados en cuanto a clonación vocal, especialmente al usar software avanzado para el procesamiento. Mi técnica personal para preparar una vocal para entrenamiento es importar la pista a mi DAW y usar el ajuste de clip para nivelar algunas de las secciones más extremas antes de aplicar compresión adicional. Esto asegura que el compresor funcione de manera eficiente sin introducir sonidos no naturales.
En la imagen a continuación, la pista superior muestra el conjunto de datos original, mientras que la pista inferior ilustra mis ajustes de nivelación:
Al usar este enfoque, solo se necesita un ligero toque de compresión. Recomiendo no más de 3-5 dB de reducción de ganancia.
Para obtener resultados óptimos, apunta a un nivel de volumen promedio de -12 dB con picos que no superen los -6 dB. Esto proporciona una gran base para el aprendizaje automático y crea modelos de voces de IA más realistas.
Des-esser para Reducir la Sibilancia Aguda
La sibilancia aguda, causada por consonantes como “s”, “t” y “z”, puede ser distractora y desagradable en grabaciones vocales. Un des-esser, como FabFilter’s Pro-DS, es esencial para controlar estos sonidos brillantes. Esto asegura que tu modelo de voz de IA no sea entrenado para replicar estos elementos ásperos, resultando en un resultado más suave y profesional.
EQ: Equilibrando el Espectro
La ecualización (EQ) juega un papel crucial en la configuración del sonido de una grabación vocal. Si bien los ajustes específicos de EQ pueden variar según el contenido musical, un EQ bien equilibrado puede mejorar significativamente la calidad de tu clon de voz de IA y proporcionar un gran punto de partida para cualquier contexto y género en el que tu modelo de voz de IA existirá.
Comienza con un filtro de paso alto para eliminar cualquier frecuencia baja innecesaria que no contribuya al tono vocal. Sin embargo, ten cuidado al exceder los 100 Hz, ya que esto podría eliminar elementos importantes del timbre vocal.
En el otro extremo del espectro, ten en cuenta cualquier frecuencia alta dura que pueda ser introducida por muchos micrófonos más asequibles. No todos tienen un Neumann vintage para cantar (yo incluido). Un filtro de paso bajo puede ayudar a suavizar estas frecuencias, típicamente alrededor de 20 kHz y superiores.
Usar un EQ como el Pultec EQP-1A, conocido por su carácter suave y cálido, es una gran opción para limpiar el rumble de baja frecuencia y suavizar los agudos.
Corrección de Tono: Cuándo y Cómo Usarla
Las herramientas de corrección de tono, como la versión gratuita de Antares Auto-Tune, a menudo se usan como un efecto en la producción musical moderna. Sin embargo, al entrenar un modelo de voz de IA, recomiendo mantener las voces naturales y aplicar corrección de tono después de que la vocal ya ha sido clonada. Este enfoque mantiene el realismo de tu modelo de IA y ofrece flexibilidad para proyectos futuros que pueden requerir un sonido más natural.
Variedad Vocal: Expande Tu Material de Fuente
Uno de los errores más comunes en el entrenamiento vocal de IA es la falta de variedad en el conjunto de datos vocales. Los modelos de aprendizaje automático solo pueden entrenar con el material proporcionado, por lo que un conjunto de datos limitado resulta en un modelo vocal limitado. Para elaborar, he recibido envíos que incluyen cantantes interpretando una canción una y otra vez. Aunque pueden sonar geniales en esa única canción, sé que son capaces de alcanzar tonos más altos y más bajos, exudando inflexiones vocales más intensas y suaves, todo lo cual no se incluirá en su modelo vocal porque el aprendizaje automático no tiene acceso a esta información adicional. A su vez, esto proporcionará un caso de uso muy limitado para un modelo de voz de IA.
Para crear voces de IA versátiles, incluye una amplia gama de interpretaciones vocales en tu material de entrenamiento. Esto debe abarcar diferentes tonos, expresiones emocionales y técnicas vocales, incluyendo tanto voces de pecho como de falsete, para imitar la versatilidad de un verdadero artista. Aunque el requisito mínimo es de 15 minutos de audio, recomiendo utilizar los 30 minutos completos para capturar todo el rango de las habilidades del vocalista.
Elimina Espacio Vacío
Las presentaciones vocales son a menudo versiones acapella de canciones en su totalidad. Dado que el proceso de aprendizaje automático solo se preocupa por analizar una interpretación vocal, los largos espacios vacíos, que pueden ser secciones instrumentales de una canción completa, son innecesarios y ocupan tiempo valioso en el conjunto de datos. Para optimizar tu modelo de voz de IA, elimina secciones no vocales y asegúrate de que el audio sea continuo, como se mostró en mi ejemplo inicial arriba. Utilizar este enfoque maximizará los datos de entrenamiento y ayudará a tu modelo a mantener la mayor parte del realismo posible.
Exporta Tu Audio Como Verdadero Mono
Finalmente, siempre exporta tus pistas vocales como pistas mono verdaderas. Enviar pistas estéreo, incluso si la grabación fue en mono, duplica la cantidad de datos percibidos y reduce la cantidad de material utilizable para el entrenamiento. Para obtener los mejores resultados de clonación de voces, maximiza la cantidad de material en el que tu modelo puede ser entrenado al transformar tu pista vocal a mono antes de subirla a Kits.AI.
Conclusión
Al seguir estos consejos, puedes evitar errores comunes de voz de IA y comenzar a desbloquear todo el potencial de esta poderosa herramienta. Recuerda, la IA no es una herramienta creativa, es una herramienta para creadores. Como todas las nuevas herramientas y tecnologías emergentes, hay una curva de aprendizaje, pero con el enfoque correcto, incorporar voces de IA en tu música puede abrir nuevas posibilidades que antes eran inimaginables.
-SK
Sam Kearney es un productor, compositor y diseñador de sonido con sede en Evergreen, CO.