Errores comunes a evitar al usar voces de inteligencia artificial

Lee para obtener los mejores consejos y trucos para aprovechar al máximo tus conversiones vocales de IA compiladas por el escritor, compositor y productor Sam Kearney.

Errores comunes a evitar al usar voces de inteligencia artificial
Errores comunes a evitar al usar voces de inteligencia artificial
Errores comunes a evitar al usar voces de inteligencia artificial

Escrito por

Sam Kearney

Sam Kearney

Publicado el

23 de agosto de 2024

Copiar enlace

Copiado

Introducción

Incorporar Voces de IA en tu música es una herramienta emocionante e innovadora para músicos y productores, gracias a los avances en inteligencia artificial. Como cualquier nueva tecnología, requiere un ajuste fino para obtener los mejores resultados. En Kits.AI, procesamos conjuntos de datos para crear configuraciones ideales para el entrenamiento de modelos vocales de IA precisos y realistas. Con el tiempo, he notado errores comunes que pueden obstaculizar el rendimiento de las voces generadas por IA. En este artículo, resaltaré estas trampas y ofreceré consejos sobre cómo optimizar tus modelos vocales de IA.

A page of sheet music

Nivel y Dinámica

La voz humana es única, al igual que una huella dactilar, con su propio timbre y matices emocionales. Cantar es típicamente una forma elevada de expresión emocional y puede variar naturalmente en volumen. Al grabar voces, estas variaciones a menudo se gestionan utilizando técnicas de micrófono y compresores. Cantantes de sesión experimentados pueden “auto-comprimir” ajustando su distancia del micrófono durante secciones fuertes. Sin embargo, incluso con esta técnica, generalmente se necesita compresión adicional para mantener una mezcla equilibrada.

Así como la compresión natural beneficia a las canciones, también mejora el proceso de entrenamiento para los modelos vocales de IA. En Kits.AI, hemos encontrado que las pistas vocales con un rango dinámico controlado producen mejores resultados cuando se trata de clonación vocal, especialmente al usar software avanzado para el procesamiento. Mi técnica personal para preparar una voz para el entrenamiento es importar la pista en mi DAW y usar el ajuste de clip para nivelar algunas de las secciones más extremas antes de aplicar cualquier compresión adicional. Esto asegura que el compresor funcione de manera eficiente sin introducir sonidos antinaturales.

En la imagen a continuación, la pista superior muestra el conjunto de datos original, mientras que la pista inferior ilustra mis ajustes de nivelación:

Two tracks in a DAW

Al usar este enfoque, solo se necesita un toque ligero de compresión. Recomiendo no más de 3-5 dB de reducción de ganancia.

Para obtener resultados óptimos, apunta a un nivel de volumen promedio de -12 dB con picos no más altos que -6 dB. Esto proporciona una gran base para el aprendizaje automático y crea modelos de voces de IA más realistas.

De-ess para Reducir Sibilancia Aguda

La sibilancia aguda, causada por consonantes como “s,” “t,” y “z,” puede ser distractora y desagradable en grabaciones vocales. Un de-esser, como FabFilter’s Pro-DS, es esencial para controlar estos sonidos brillantes.  Esto asegura que tu modelo de voz de IA no esté entrenado para replicar estos elementos ásperos, resultando en una salida más suave y profesional.

FabFilter Pro DS

EQ: Equilibrando el Espectro

La ecualización (EQ) juega un papel crucial en dar forma al sonido de una grabación vocal. Si bien la configuración específica de EQ puede variar dependiendo del contenido musical, un EQ bien equilibrado puede mejorar significativamente la calidad de tu modelo de voz de IA y ofrecer un gran punto de partida para cualquier contexto y género en el que existirá tu modelo de voz de IA. 

Comienza con un filtro de paso alto para eliminar frecuencias graves innecesarias que no contribuyen al tono vocal. Sin embargo, ten cuidado al subir por encima de 100 Hz, ya que esto podría eliminar elementos importantes del timbre vocal.

En el otro extremo del espectro, ten en cuenta cualquier frecuencia aguda áspera que pueda ser introducida por muchos micrófonos más asequibles. No todos tienen un Neumann vintage para cantar (yo incluido). Un filtro de paso bajo puede ayudar a domar estas frecuencias, típicamente alrededor de 20 kHz y más. 

Usar un EQ como el Pultec EQP-1A, conocido por su carácter suave y cálido, es una excelente opción para limpiar el ruido de graves y suavizar los agudos. 

Adjusting EQ with the Pultec EQP-1A

Corrección de Tono: Cuándo y Cómo Usarlo

Las herramientas de corrección de tono, como la versión gratuita de Antares Auto-Tune, se utilizan a menudo como un efecto en la producción musical moderna. Sin embargo, al entrenar un modelo de voz de IA, recomiendo mantener las voces naturales y aplicar la corrección de tono después de que la voz ya haya sido clonada. Este enfoque mantiene el realismo de tu modelo de IA y ofrece flexibilidad para futuros proyectos que puedan requerir un sonido más natural.

Variedad Vocal: Expande Tu Material de Origen

Uno de los errores más comunes en el entrenamiento vocal de IA es la falta de variedad en el conjunto de datos vocales. Los modelos de aprendizaje automático solo pueden entrenarse a partir del material proporcionado, por lo que un conjunto de datos limitado resulta en un modelo vocal limitado. Para elaborar, he recibido envíos que incluyen cantantes interpretando una canción una y otra vez. Aunque pueden sonar geniales en esa única canción, sé que son capaces de alcanzar tonos más altos y más bajos, exudando matices vocales más intensos y suaves, todos los cuales no se incluirán en su modelo vocal porque el aprendizaje automático no tiene acceso a esta información adicional. A su vez, esto proporcionará un caso de uso muy limitado para un modelo de voz de IA.

Para crear voces de IA versátiles, incluye una amplia gama de interpretaciones vocales en tu material de entrenamiento. Esto debería cubrir diferentes tonos, expresiones emocionales y técnicas vocales, incluyendo tanto voces de pecho como de falsete, para imitar la versatilidad de un artista real. Aunque el requisito mínimo es de 15 minutos de audio, recomiendo utilizar los 30 minutos completos para capturar todo el rango de habilidades del vocalista.

A sound mixer

Eliminar Espacios Vacíos

Las presentaciones vocales son a menudo versiones a capella de canciones en su totalidad. Dado que el proceso de aprendizaje automático solo se preocupa por analizar una actuación vocal, los largos espacios vacíos, que pueden ser secciones instrumentales de una canción completa, son innecesarios y ocupan un valioso tiempo en el conjunto de datos. Para optimizar tu modelo de voz de IA, elimina cualquier sección no vocal y asegúrate de que el audio sea continuo, como se muestra en mi ejemplo inicial arriba. Utilizar este enfoque maximizará los datos de entrenamiento y ayudará a que tu modelo mantenga tanto realismo como sea posible.

Exporta Tu Audio como Mono Verdadero

Finalmente, siempre exporta tus pistas vocales como pistas mono verdaderas. Enviar pistas estéreo, incluso si la grabación fue en mono, duplica los datos percibidos y reduce la cantidad de material utilizable para el entrenamiento. Para obtener los mejores resultados de clonación de voz, maximiza la cantidad de material que tu modelo puede entrenar haciendo un rebote de tu pista vocal a mono antes de subirla a Kits.AI.

Conclusión

Siguiendo estos consejos, puedes evitar errores comunes en las voces de IA y comenzar a desbloquear todo el potencial de esta poderosa herramienta. Recuerda, la IA no es una herramienta creativa, es una herramienta del creador. Como todas las nuevas herramientas y tecnologías emergentes, hay una curva de aprendizaje, pero con el enfoque correcto, incorporar voces de IA en tu música puede abrir nuevas posibilidades que antes eran inimaginables.


-SK

Sam Kearney es productor, compositor y diseñador de sonido basado en Evergreen, CO.

Tabla de Contenidos

Título

Título

Comienza gratis. No se requiere tarjeta de crédito.

Nuestro plan gratuito te permite ver cómo Kits puede ayudar a optimizar tu flujo de trabajo vocal y de audio. Cuando estés listo para dar el siguiente paso, los planes de pago comienzan en $14.99 / mes.

Comienza gratis. No se requiere tarjeta de crédito.

Nuestro plan gratuito te permite ver cómo Kits puede ayudar a optimizar tu flujo de trabajo vocal y de audio. Cuando estés listo para dar el siguiente paso, los planes de pago comienzan en $14.99 / mes.

Comienza gratis. No se requiere tarjeta de crédito.

Nuestro plan gratuito te permite ver cómo Kits puede ayudar a optimizar tu flujo de trabajo vocal y de audio. Cuando estés listo para dar el siguiente paso, los planes de pago comienzan en $14.99 / mes.