INVESTIGACIÓN

Conversión de Voz de Kits (KVC)

KVC: Conversión de Voz de Canto de Calidad de Estudio

Kits.AI es la plataforma líder mundial para la conversión de voz cantada profesional con IA. Millones de productores de música y vocalistas confían en Kits para obtener voces de IA de calidad de estudio que capturan la entonación natural, la dinámica y el matiz de la voz humana.

El equipo de investigación de Kits.AI ha diseñado Kits Voice Conversion (KVC), un sistema de conversión de voz a voz líder en la industria que rompe los límites de calidad en la tecnología de conversión de voz a voz.

Esta página es una visión general de la creciente lista de innovaciones dentro de KVC — arquitectura mejorada, pesos preentrenados robustos y infraestructura optimizada — que lo convierten en la mejor opción para los profesionales de la industria en todo el mundo.

Arquitectura KVC: Optimizada para Cantar

KVC ha realizado mejoras arquitectónicas optimizadas específicamente para producir resultados de canto de calidad profesional. Esta sección describe las mejoras arquitectónicas que permiten a KVC superar a los sistemas SVC de código abierto en varias dimensiones, incluyendo pronunciación, precisión de tono, rango de frecuencia y dinámica.

Pesos Base de Kits

Kits ha curado y procesado a mano un conjunto de datos propietario obtenido de cantantes individuales que son compensados por los derechos a entrenar en grabaciones de su voz. Estas grabaciones forman el conjunto de datos sobre el cual se entrenan los pesos base de KVC. Cada vez que se clona una voz con KVC, se extrae de la calidad de este conjunto de datos.

Nuestros datos de entrenamiento, la obtención de datos y las prácticas de gestión de datos están certificadas como Justamente Entrenadas. Seguimos comprometidos a respetar los derechos de los artistas y apoyarlos financieramente.

Detección de tono: Kits de tono híbrido

Una detección más precisa de F0 es crítica para la tarea de SVC. El equipo de investigación de Kits ha desarrollado un algoritmo de detección de tono personalizado llamado Kits Hybrid Pitch que supera a los métodos básicos Crepe, RMVPE y Mangio-Crepe, lo que conduce a mejores resultados.

Métricas para RMVPE

Métricas para híbridos

Código Abierto: RVC con RMVPE

0:00/1:34

Kits híbridos

0:00/1:34

Recuperación de Contenido Adaptativo

KVC utiliza la función de suavizado de recuperación de contenido adaptativo, lo que conduce a niveles más altos de similitud entre hablantes en comparación con los sistemas de recuperación SVC estándar como RVC. Durante la inferencia, Kits VC toma las características de entrada y aplica la fuerza de recuperación de manera adaptativa: cuanto más alineadas estén las características, más se acercan las características del contenido a la recuperación.

Esto resulta en una mayor preservación del contenido fonémico, lo que lleva a mejoras en la pronunciación y la similitud entre hablantes.

Código abierto: Contentvec + recuperación de vecinos más cercanos

0:00/1:34

Kits: Recuperación de características adaptativas

0:00/1:34

Codificación de contenido avanzada: Xeus, Híbrido

Los sistemas SVC de código abierto utilizan pesos de Hubert o ContentVec. KVC está integrado tanto con ContentVec como con codificadores de contenido avanzados como Xeus y sistemas híbridos, lo que puede llevar a mejoras en la pronunciación. Se incluyen ejemplos a continuación.

Preprocesamiento de entrenamiento

Corte Inteligente

KVC utiliza un método de segmentación más inteligente para entrenar con frases más largas y completas, evitando cortar en medio de una palabra o frase.

Eliminación de ruido y respiración

KVC incluye pasos adicionales para la eliminación adaptativa de ruido para mejorar la calidad.

EQ adaptativo para equilibrio espectral

KVC incluye el ajuste automático de EQ tanto en el entrenamiento como en la inferencia, lo que resulta en un mayor equilibrio espectral y paridad entre el audio de entrada y el de salida.

Post-procesamiento de inferencias

Corrección de tono

La corrección automática de tono, inspirada en herramientas como Antares Auto-Tune, se aplica opcionalmente durante la conversión.

Efectos estilísticos

Los efectos estilísticos como la ampliación estéreo y la reverberación están integrados directamente en el pipeline de inferencia, mejorando la calidad estilística de las salidas de canto.

Ejemplos de audio

Estabilidad de inclinación

Donde los pesos de Open Source se entrenan en gran medida con datos de voz, los pesos base de KVC están optimizados para el canto. El resultado: notas más completas y claras en el rango de un cantante (e incluso más allá).

Código Abierto (RVC)

0:00/1:34

Kits de VC

0:00/1:34

Energía Vocal

Con KVC, el nivel de energía en un archivo de entrada se reproduce de manera mucho más realista que con alternativas de código abierto. Las fluctuaciones de volumen, la respiración y los comienzos suaves de las notas dan como resultado un resultado mucho más natural.

Código Abierto (RVC)

0:00/1:34

Kits de VC

0:00/1:34

Volumen

A través de un preprocesamiento adaptativo, KVC aborda los artefactos de volumen comunes en las conversiones RVC de código abierto.

Código Abierto (RVC)

0:00/1:34

Kits de VC

0:00/1:34

Calidad Sónica

Sin un cuidadoso procesamiento de ecualización y rango dinámico, un modelo de voz puede sonar rápidamente áspero. KVC equilibra de manera adaptativa el volumen y la respuesta de frecuencia de los conjuntos de datos de entrenamiento para conversiones suaves y de baja distorsión.

Código Abierto (RVC)

0:00/1:34

Kits de VC

0:00/1:34

Desgaste vocal/Fry vocal

A través de mejoras en la detección de tono, la recuperación de características y la resolución temporal, KVC realiza mejoras en matices sutiles como el vocal fry y estilos de canto susurrante.

Código Abierto (RVC)

0:00/1:34

Kits de VC

0:00/1:34