Entrenamiento y personalización de la voz cantada de IA
Escrito por
Publicado el
6 de noviembre de 2024
Uno de mis principales roles en Kits es asegurar que nuestros modelos sin royalties sean entrenados con conjuntos de datos sólidos e inspiradores que no solo suenen bien, sino que también sean inspiradores para trabajar. Algunas partes de este proceso son puramente técnicas, mientras que otras se inclinan hacia decisiones creativas que dan forma al carácter del modelo. Hoy, estoy desglosando cómo optimizar tus propios datos de entrenamiento y tomar algunas decisiones creativas intencionales para añadir una personalidad única a tus modelos de voz.
En las últimas semanas, mis artículos han cubierto mi proceso para crear algunas de nuestras voces más basadas en personajes y las técnicas únicas que utilicé. Ya sea cantando a través de un amplificador de guitarra para mi modelo Male Overdrive Rock o utilizando un micrófono de cinta para captar uno de mis monitores de estudio para Vintage Female Jazz, las maneras de crear un conjunto de datos destacado son verdaderamente infinitas.
La Fundación
Una base sólida es la parte más crucial de la creación de cualquier modelo de voz. Independientemente de cualquier atributo especial que desee agregar, siempre empiezo con una captura vocal limpia. Esto significa eliminar ruidos de fondo: aires acondicionados, zumbidos del refrigerador, lo que sea que esté presente—que pueda degradar el sonido de tu modelo y crear problemas más adelante. Digamos que grabaste un gran conjunto de datos de 30 minutos, pero al reproducirlo, oyes un suave zumbido que apenas era perceptible en la habitación. ¡He estado allí! Me he perdido en una toma, solo para luego notar un amplificador zumbando como loco o el calentador funcionando en el fondo. Consulta nuestra guía sobre cómo grabar voces de alta calidad tú mismo si estás comenzando desde cero.
Una herramienta como iZotope RX facilita la corrección de zumbidos y ruidos consistentes. Simplemente abre el módulo de De-noise espectral de RX, selecciona una sección de tu audio con solo el ruido de fondo, presiona “Aprender” y reproduce el audio. RX analizará y ajustará automáticamente su reducción de ruido. Puede que desees ajustarlo más finamente modificando los controles de Umbral y Reducción, pero RX simplifica la eliminación de esos molestos artefactos.
Importancia del Nivel de Ganancia
Configurar un nivel de ganancia adecuado también es clave. Al crear modelos, apunto a un nivel constante de -12dB, con picos no superiores a -6dB. Esto permite que el audio permanezca dinámico mientras proporciona al aprendizaje automático el volumen ideal para entrenar de manera efectiva. A menudo veo presentaciones que están demasiado bajas en volumen o que recortan en rojo. El recorte digital no te da esa saturación agradable que podrías querer en una voz de rock—es simplemente duro, y los algoritmos de aprendizaje automático tampoco son aficionados a ello.
Creando Carácter
Aunque un conjunto de datos limpio y sólido suele ser la mejor base, permitirte manipular cosas una vez importadas a tu DAW, a veces es divertido incorporar algo de carácter directamente en tus datos de entrenamiento. Cualquier sonido que subas con un efecto aplicado llevará automáticamente esa calidad en tu modelo—no se necesita magia de DAW más tarde. Esto puede ser perfecto para creadores de contenido que desean acceder a una vibra vocal específica, como un efecto de radio o walkie-talkie que enfatiza las frecuencias de medios-altos y añade un poco de textura. Aplica esto a tu conjunto de datos completo y tendrás un modelo que instantáneamente suena como si viniera a través de una radio.
¡O quizás es hora de desempolvar ese viejo pedal de distorsión en la esquina! Pasar tu conjunto de datos a través de él puede añadir un nuevo nivel de carácter vocal.
A menudo me gusta pasar voces a través de un amplificador de guitarra—subiendo la sobrecarga y ajustándolo a mi gusto. ¡¿Por qué no explotar a través de tu Marshall half-stack y ver cuánto tarda antes de que tus vecinos llamen a la policía?!
Sin embargo, puede que prefieras evitar la queja de ruido y probar uno de estos pequeños Marshalls a pilas en su lugar. (Nota: ¡estos amplificadores pequeños son oro de estudio—no te duermas en ellos!)
¿Otro truco? Un pedal wah. Mantener un wah “abierto” en ciertos puntos puede producir una amplia gama de efectos filtrados. No es necesario ponerse sofisticado aquí; un estándar Dunlop CryBaby funciona genial.
Y para una vibra auténtica lo-fi sin el reproductor de cinta de carrete a carrete, prueba un grabador de casete. Este modelo cuenta con un micrófono integrado y un puerto USB 2.0. Utilizar el micrófono incorporado para grabar desde tu altavoz a casete puede producir un sonido cálido y degradado hermosamente. Puede que necesite conseguir uno de estos yo mismo—¡perfecto para experimentar!
Conclusión
Al final del día, hacer música debería ser divertido, y para mí, eso significa romper barreras y encontrar nuevos sonidos. No te preocupes si tu primer intento de carga no resulta como querías—cada toma es parte del proceso, informando tu próximo movimiento. Kits.AI está aquí para ayudarte a crear algo inspirador y único. Así que adelante—¡el cielo es el límite!
-SK
Sam Kearney es productor, compositor y diseñador de sonido con sede en Evergreen, Colorado.