INVESTIGACIÓN

INVESTIGACIÓN

Presentando la conversión de voz cantada sin ejemplos

9 de diciembre de 2024

por Anastasiia Herus

En nuestra misión de proporcionar las herramientas más poderosas para los creadores de música, el equipo de investigación de Kits.AI ha desarrollado uno de los primeros modelos de Conversión de Voz de Cantante Zero-Shot (ZS-SVC) del mundo. Este modelo permite convertir audio a la voz de un cantante objetivo sin necesidad de entrenamiento.

Entrada

0:00/1:34

Referencia del cantante objetivo

0:00/1:34

Salida

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

Arquitectura y Datos

La arquitectura del modelo de zero-shot hereda varios componentes clave de la arquitectura KVC, incluyendo codificación de contenido, codificación de tono y recuperación. La adición clave es un módulo de codificador de cantante, que computa un embedding de cantante a partir del archivo de referencia. El embedding de cantante es una representación disentangled de las voces del cantante objetivo que puede ser utilizada para la conversión.

Recuperación fonémica para la preservación del acento

Más allá de preservar las cualidades timbrales del hablante de referencia, el modelo ZS-SVC también emplea un sistema de recuperación fonémica. Al igual que la recuperación en KVC, esto ayuda a preservar el acento del hablante objetivo, sin corregir excesivamente y provocar errores de pronunciación.

Datos

Optimizar la calidad de los datos sobre la cantidad tiene un gran impacto en los resultados del canto sin muestra. El modelo ZS-SVC fue entrenado con el conjunto de datos vocal grabado en estudio con licencia de Kits. Todos los datos están licenciados directamente de los artistas y han sido preprocesados a mano por ingenieros de audio para lograr un nivel de calidad adecuado para la publicación.

Mirando hacia adelante

ZS-SVC potencia nuestra nueva función de Clonación de Voz Instantánea (IVC), disponible actualmente para los usuarios beta de Kits. Más características utilizando ZS-SVC estarán disponibles para la comunidad más amplia de Kits con el tiempo.

¡Estamos emocionados de ver cómo los creadores de música utilizan este nuevo modelo para impulsar su proceso creativo!