Entrenamiento y personalización de la voz cantada de IA
Escrito por
Publicado el
6 de noviembre de 2024
Uno de mis roles principales en Kits es asegurar que nuestros modelos sin royalties sean entrenados con conjuntos de datos sólidos e inspiradores que no solo suenen bien, sino que también sean inspiradores para trabajar. Algunas partes de este proceso son puramente técnicas, mientras que otras se centran en decisiones creativas que dan forma al carácter del modelo. Hoy, estoy desglosando cómo optimizar tus propios datos de entrenamiento y tomar algunas decisiones creativas intencionales para agregar personalidad única a tus modelos de voz.
En las últimas semanas, mis artículos han cubierto mi proceso para crear algunas de nuestras voces más basadas en personajes y las técnicas únicas que utilicé. Ya sea cantando a través de un amplificador de guitarra para mi modelo de Rock Overdrive Masculino o utilizando un micrófono de cinta para capturar uno de mis monitores de estudio para Jazz Femenino Vintage, las maneras de crear un conjunto de datos destacado son realmente infinitas.
La Fundación
Una base sólida es la parte más crucial de crear cualquier modelo de voz. Independientemente de cualquier atributo especial que quiera agregar, siempre empiezo con una captura vocal limpia. Esto significa eliminar el ruido de fondo: aires acondicionados, zumbido de nevera, lo que sea que esté acechando, que puede degradar el sonido de tu modelo y crear problemas más adelante. Supongamos que grabaste un gran conjunto de datos de 30 minutos, pero al reproducirlo, escuchas un zumbido bajo que apenas era detectable en la habitación. ¡He estado allí! Me he perdido en una toma, solo para luego detectar un amplificador zumbando como loco o el calefactor funcionando en segundo plano. Consulta nuestra guía sobre cómo grabar voces de alta calidad tú mismo si estás empezando desde cero.
Una herramienta como iZotope RX facilita corregir zumbidos y vibraciones consistentes. Simplemente abre el módulo Spectral De-noise de RX, selecciona una sección de tu audio con solo el ruido de fondo, presiona “Aprender” y reproduce el audio. RX analizará y ajustará automáticamente su reducción de ruido. Es posible que desees ajustarlo más finamente ajustando los faders de Umbral y Reducción, pero RX simplifica la eliminación de esos molestos artefactos.
Importancia del Nivel de Ganancia
Establecer un nivel de ganancia adecuado también es clave. Al crear modelos, apunto a un nivel constante de -12dB, con picos no más altos que -6dB. Esto permite que el audio se mantenga dinámico mientras le da al aprendizaje automático el volumen ideal para entrenar de manera efectiva. A menudo veo presentaciones que están demasiado bajas en volumen o recortando en rojo. El recorte digital no te da esa saturación agradable que podrías desear en una voz rockera; es simplemente duro, y a los algoritmos de aprendizaje automático tampoco les gusta.
Creando Carácter
Aunque un conjunto de datos limpio y sólido suele ser la mejor base, permitirte manipular las cosas una vez importadas en tu DAW, a veces es divertido incorporar algo de carácter directamente en tus datos de entrenamiento. Cualquier sonido que subas con un efecto aplicado llevará automáticamente esa calidad en tu modelo, ¡sin magia de DAW necesaria más tarde! Esto puede ser perfecto para creadores de contenido que desean acceso a una vibra vocal específica, como un efecto de radio o walkie-talkie que enfatiza las frecuencias medias-altas y agrega un poco de textura. Aplica esto a todo tu conjunto de datos, y tienes un modelo que instantáneamente suena como si estuviera saliendo de una radio.
¡O tal vez sea hora de desempolvar ese viejo pedal de distorsión en la esquina! Pasar tu conjunto de datos por él puede agregar un nuevo nivel de carácter vocal.
A menudo me gusta pasar voces a través de un amplificador de guitarra, aumentando la sobrecarga y ajustándolo a gusto. ¿Por qué no molestarte en tu Marshall media pila y ver cuánto tiempo pasa antes de que tus vecinos llamen a la policía!
Sin embargo, tal vez prefieras evitar la queja de ruido y probar uno de estos pequeños Marshalls portátiles en su lugar. (Nota: ¡estos amplificadores pequeños son oro en el estudio, no te los pierdas!)
¿Otro truco? Un pedal wah. Mantener un wah “bloqueado” en ciertos puntos puede producir una amplia gama de efectos filtrados. No es necesario ser sofisticado aquí; un estándar Dunlop CryBaby funciona genial.
Y para una vibra auténtica lo-fi sin la grabadora de cinta de carrete a carrete, prueba un grabador de casete. Este modelo presenta un micrófono incorporado y un puerto USB 2.0. Usar el micrófono incorporado para grabar desde tu altavoz en un casete puede producir un sonido cálido y bellamente degradado. Es posible que necesite agarrar uno de estos yo mismo, ¡perfecto para experimentar!
Conclusión
Al final del día, hacer música debería ser divertido, y para mí, eso significa empujar límites y encontrar nuevos sonidos. No te preocupes si tu primer intento de carga no tiene éxito como deseas; cada toma es parte del proceso, informando tu próximo movimiento. Kits.AI está aquí para ayudarte a crear algo inspirador y único. Así que ve por ello: ¡el cielo es el límite!
-SK
Sam Kearney es un productor, compositor y diseñador de sonido con sede en Evergreen, Colorado.