Blog

Producción de Música

Errores comunes a evitar al usar voces de inteligencia artificial

Lee para obtener los mejores consejos y trucos para aprovechar al máximo tus conversiones vocales de IA compiladas por el escritor, compositor y productor Sam Kearney.

Escrito por

Sam Kearney

Publicado el

23 de agosto de 2024

Copiar enlace

Copiado

Introducción

Incorporar voces de IA en tu música es una herramienta emocionante e innovadora para músicos y productores, gracias a los avances en la inteligencia artificial. Como cualquier nueva tecnología, requiere un ajuste fino para obtener los mejores resultados. En Kits, procesamos conjuntos de datos para crear configuraciones ideales para un entrenamiento preciso y realista de modelos vocales de IA. Con el tiempo, he notado errores comunes que pueden obstaculizar el rendimiento de voces generadas por IA. En este artículo, destacaré estas trampas y ofreceré consejos sobre cómo optimizar tus modelos vocales de IA.

Nivel y dinámica

La voz humana es única, como una huella digital, con su propio timbre y matiz emocional. Cantar es típicamente una forma intensificada de expresión emocional y puede variar naturalmente en volumen. Al grabar voces, estas variaciones a menudo se gestionan utilizando técnicas de micrófono y compresores. Cantantes de sesión experimentados pueden "autocomprimir" ajustando su distancia del micrófono durante secciones más fuertes. Sin embargo, incluso con esta técnica, generalmente se necesita compresión adicional para mantener una mezcla equilibrada.

Al igual que la compresión natural beneficia a las canciones, también mejora el proceso de entrenamiento para modelos vocales de IA. En Kits AI, hemos descubierto que las pistas vocales con un rango dinámico controlado producen mejores resultados cuando se trata de clonación vocal, especialmente al usar software avanzado para el procesamiento. Mi técnica personal para preparar una voz para el entrenamiento es importar la pista a mi DAW, y usar ganancia de clip para nivelar algunas de las secciones más extremas antes de aplicar cualquier compresión adicional. Esto asegura que el compresor funcione eficientemente sin introducir sonidos no naturales.

En la imagen de abajo, la pista superior muestra el conjunto de datos original, mientras que la pista inferior ilustra mis ajustes de nivelado:

Usando este enfoque, solo se necesita un toque ligero de compresión. Recomiendo no más de 3-5 dB de reducción de ganancia.

Para obtener resultados óptimos, apunte a un nivel de volumen promedio de -12 dB con picos no superiores a -6 dB. Esto proporciona una gran base para el aprendizaje automático y crea más modelos de voz de IA realistas.

De-ess para reducir la sibilancia áspera

La sibilancia áspera, causada por consonantes como “s,” “t,” y “z,” puede ser distrayente y desagradable en grabaciones vocales. Un de-esser, como Pro-DS de FabFilter, es esencial para controlar estos sonidos agudos. Esto asegura que su modelo de voz de IA no sea entrenado para replicar estos elementos ásperos, resultando en una salida más suave y profesional.

EQ: equilibrando el espectro

La ecualización (EQ) juega un papel crucial en la formación del sonido de una grabación vocal. Si bien los ajustes específicos de EQ pueden variar dependiendo del contenido musical, un EQ bien equilibrado puede mejorar significativamente la calidad de tu clon de voz de IA y proporcionar un excelente punto de partida para cualquier contexto y género en el que existirá tu modelo de voz de IA.

Comienza con un filtro pasa-altos para eliminar cualquier frecuencia baja innecesaria que no contribuya al tono vocal. Sin embargo, tenga cuidado al subir por encima de 100 Hz, ya que esto podría eliminar elementos importantes del timbre vocal.

En el otro extremo del espectro, sea consciente de cualquier frecuencia alta áspera que pueda ser introducida por muchos micrófonos más asequibles. No todos tienen un Neumann vintage para cantar (yo incluido). Un filtro pasa-bajos puede ayudar a domar estas frecuencias, típicamente alrededor de 20 kHz y superiores.

Utilizar un EQ como el Pultec EQP-1A, conocido por su carácter suave y cálido, es una gran opción para limpiar el ruido de baja frecuencia y suavizar los agudos.

Corrección de tono: cuándo y cómo usarla

Las herramientas de corrección de tono se utilizan a menudo como un efecto en la producción musical moderna. Sin embargo, al entrenar un modelo de voz de IA, recomiendo mantener las voces naturales y aplicar la corrección de tono después de que la voz ya haya sido clonada. Este enfoque mantiene el realismo de su modelo de IA y ofrece flexibilidad para futuros proyectos que puedan requerir un sonido más natural.

Variedad vocal: expanda su material de origen

Uno de los errores más comunes en el entrenamiento vocal de IA es la falta de variedad en el conjunto de datos vocales. Los modelos de aprendizaje automático solo pueden entrenar con el material proporcionado, por lo que un conjunto de datos limitado da como resultado un modelo vocal limitado. Para elaborarlo, he recibido presentaciones que incluyen cantantes interpretando una canción una y otra vez. Aunque pueden sonar genial en esa única canción, sé que son capaces de alcanzar tonos más altos y más bajos, emanando inflexiones vocales más intensas y suaves, todo lo cual no se incluirá en su modelo vocal porque el aprendizaje automático no tiene acceso a esta información adicional. Esto proporcionará un caso de uso muy limitado para un modelo de voz de IA.

Para crear voces de IA versátiles, incluya una amplia gama de interpretaciones vocales en su material de entrenamiento. Esto debería cubrir diferentes tonos, expresiones emocionales y técnicas vocales, incluyendo voces de pecho y falsete, para imitar la versatilidad de un artista real. Aunque el requisito mínimo es 15 minutos de audio, recomiendo utilizar los 30 minutos completos para capturar el rango completo de las habilidades del vocalista.

Eliminar espacio vacío

Las presentaciones vocales son a menudo versiones acapella de canciones en su totalidad. Debido a que el proceso de aprendizaje automático solo se preocupa por analizar una actuación vocal, los largos espacios vacíos, que pueden ser secciones instrumentales de una canción completa, son innecesarios y ocupan tiempo valioso en el conjunto de datos. Para optimizar su modelo de voz de IA, elimine cualquier sección no vocal y asegúrese de que el audio sea continuo, como se muestra en mi ejemplo inicial anterior. Utilizar este enfoque maximizará los datos de entrenamiento y ayudará a que su modelo retenga tanto realismo como sea posible.

Exporte su audio como mono verdadero

Finalmente, siempre exporte sus pistas de voz como pistas mono verdaderas. Enviar pistas estéreo, incluso si la grabación fue en mono, duplica los datos percibidos y reduce la cantidad de material utilizable para el entrenamiento. Para obtener los mejores resultados de clonación de voz, maximice la cantidad de material con el que se puede entrenar su modelo convirtiendo su pista de voz a mono antes de subirla a Kits.AI.

Conclusión

Siguiendo estos consejos, puede evitar los errores comunes de voces de IA y comenzar a desbloquear todo el potencial de esta poderosa herramienta. Recuerde, la IA no es una herramienta creativa, es una herramienta para creadores. Como todas las nuevas herramientas y tecnologías emergentes, hay una curva de aprendizaje, pero con el enfoque correcto, incorporar voces de IA en su música puede abrir nuevas posibilidades que antes eran inimaginables.

-SK

Sam Kearney es un productor, compositor y diseñador de sonido con sede en Evergreen, CO.

Tabla de Contenidos

Título

Empieza, gratis.

Optimiza tu flujo de producción vocal con herramientas de audio AI de calidad de estudio

Comenzar

Empieza, gratis.

Optimiza tu flujo de producción vocal con herramientas de audio AI de calidad de estudio

Comenzar

Empieza, gratis.

Optimiza tu flujo de producción vocal con herramientas de audio AI de calidad de estudio

Comenzar

Entradas de blog recomendadas para ti

Características

Precios

Aplicación de escritorio

Investigación

Blog

Select Language

Iniciar sesión

Empezar

Comenzar

Comenzar

Errores comunes a evitar al usar voces de inteligencia artificial

Introducción

Nivel y dinámica

De-ess para reducir la sibilancia áspera

EQ: equilibrando el espectro

Corrección de tono: cuándo y cómo usarla

Variedad vocal: expanda su material de origen

Eliminar espacio vacío

Exporte su audio como mono verdadero

Conclusión

Entradas de blog recomendadas para ti

PRODUCTO

CARACTERÍSTICAS

LEGAL

RECURSOS

Características

Características

Precios

Aplicación de escritorio

Investigación

Blog

Iniciar sesión