Cómo Optimizar el Entrenamiento de un Modelo de Voz AI
Escrito por
Publicado el
17 de septiembre de 2024
Aunque puede parecer contraintuitivo, un modelo de voz de IA que suena genial no requiere cantantes con afinación perfecta. Uno de los errores más comunes que encuentro al revisar las presentaciones para nuestro programa Voces de la Comunidad son conjuntos de datos fuertemente alterados con autoafinación. Desde el exterior, es comprensible que muchos supongan que conjuntos de datos a la perfección de la afinación equivalen a modelos a la perfección de la afinación. En esta publicación, exploraremos por qué usar la corrección de afinación puede afectar negativamente la calidad de su modelo de voz de IA, junto con otros consejos útiles para entrenar un modelo más natural y realista.
¡Cuanto Más, Mejor!
Los modelos vocales de IA prosperan con datos diversos. Si subes una canción de tres minutos y medio en un rango vocal bajo, el modelo puede sonar genial para esa canción en particular, pero le faltará la versatilidad del rango completo de un cantante de la vida real. Para obtener resultados óptimos, apunte a al menos 30 minutos de material vocal que abarque un amplio rango de alturas, dinámicas y estilos de entrega.
Incorpora todo, desde notas suaves y delicadas hasta belts de energía total, cubriendo el amplio espectro de las habilidades de un cantante. Esta diversidad asegura que tu modelo suene natural y versátil, capaz de desempeñarse en una amplia gama de materiales sin estar limitado por un conjunto de datos restringido.
¡Bote a Mono Verdadero!
Una falta común es subir audio estéreo en lugar de mono verdadero al entrenar un modelo de voz. Kits actualmente permite un máximo de 200 MB de datos de entrenamiento, por lo que convertir pistas a estéreo, incluso si se graban con un solo micrófono, puede duplicar innecesariamente el tamaño de tu archivo. Esto reduce la cantidad de datos de entrenamiento utilizables.
Al asegurar que tus voces se conviertan a mono verdadero, maximizas la cantidad de datos de entrenamiento y evitas alcanzar el límite de tamaño demasiado pronto. Aunque el estéreo es esencial para producciones modernas, los modelos de voz de IA solo requieren mono por eficiencia.
¡La Autotune y la Corrección de Afinación No Son Necesarias!
Como mencioné anteriormente, las voces perfectas no son necesarias para los datos de entrenamiento. Cada cantante, incluso aquellos con una afinación excepcional, tiene variaciones naturales en su voz. Si bien la Antares AutoTune ajustada con dureza puede adaptarse a tu estilo de producción, puede resultar en modelos de IA robóticos y con un sonido no natural.
La clave es reservar la corrección de afinación para la postproducción. Entrenar tu modelo de voz de IA con voces naturales y sin procesar dará como resultado un sonido más realista y evitará que tu modelo quede encerrado en un estilo específico y sobreprocesado.
¡Guarda los Efectos Para Después!
Efectos como la reverberación, el retardo y la modulación son excelentes para mejorar las actuaciones vocales, pero deben evitarse al crear datos de entrenamiento. Estos efectos pueden interferir con el proceso de aprendizaje automático, que se centra en capturar la esencia natural de la voz humana. Incluirlos en tu conjunto de datos puede resultar en modelos llenos de artefactos digitales, haciéndolos sonar menos realistas.
En su lugar, concéntrate en capturar voces secas y limpias. Siempre puedes agregar efectos más tarde. Si las reflexiones en la habitación son un problema, intenta grabar en un espacio pequeño como un armario, o usa un filtro de reflexión como el sE RF-X para minimizar la reverberación y asegurar un conjunto de datos más limpio.
Prioriza la Consistencia Sónica
Si bien la diversidad en la entrega vocal puede mejorar tu modelo de IA, la consistencia en la calidad de grabación es crucial. El ruido de fondo de ventiladores, aires acondicionados u otros elementos del hogar puede afectar negativamente el resultado de tu modelo. Presta atención a los niveles de preamplificación y cualquier distorsión causada por la sobrecarga del micrófono o la interfaz. Mantén un oído atento a cualquier inconsistencia y asegura una captura limpia y sin distorsiones.
Variaciones vocales leves debido a cambios diarios en la voz del cantante pueden realmente añadir profundidad a tu modelo, pero asegúrate de que el aspecto técnico de tu grabación se mantenga consistente para mantener resultados de alta calidad.
Conclusión
Al construir un modelo de voz de IA, es fácil suponer que las técnicas de producción vocal tradicionales mejorarán el resultado. Sin embargo, al seguir estos consejos –usando datos naturales y diversos, manteniendo la consistencia técnica, y guardando los efectos para la postproducción– crearás un modelo de voz más realista y versátil. Kits AI puede desbloquear posibilidades creativas increíbles, y con el enfoque correcto, podrás sacar el máximo provecho de tus modelos de voz de IA. Para obtener pautas adicionales de grabación, sigue este enlace para las recomendaciones de Kits para capturar conjuntos de datos de alta calidad.
-SK
Sam Kearney es productor, compositor y diseñador de sonido con sede en Evergreen, CO.