INVESTIGACIÓN

Presentamos KGV1: el primer modelo de voces generativas de Kits.AI

18 de febrero de 2025

por Kyle Dhillon, Anastasiia Herus, Amantur Amatov

Nos complace compartir nuestro primer modelo completamente generativo de texto a vocales: KGV1 (Kits Generative Vocals 1.0).

Este modelo combina elementos de técnicas de música generativa SOTA y arquitecturas vocales de Kits para producir una generación de texto a voces de alta calidad.

“Estoy de vuelta en la ciudad, pon ese disco y súbelo.”

0:00/1:34

"Cercas desgastadas / el verano ha terminado / con mis amigos y nunca mejor."

0:00/1:34

“Algo sobre la forma en que suenas / cuando cantas sin previo aviso.”

0:00/1:34

“Mientras dormía en tu sofá, te despertaste para verlo salir, oh…”

0:00/1:34

“Despertaremos con el sol, porque ahora sabemos para quién vivimos”

0:00/1:34

“Este va para el equipo, sin ustedes ¿qué sería yo?”

0:00/1:34

KGV1 se basa en investigaciones destacadas sobre transformadores de difusión para abordar el desafío del acondicionamiento de letras, lo que permite que un sistema basado en difusión traduzca letras en un canto cohesivo.

Más allá de eso, podemos lograr una mayor fidelidad en la salida vocal en comparación con otros modelos generativos de texto a audio, aprovechando módulos de la Conversión de Voz de Kits (KVC). La integración del codificador de contenido, la recuperación de contenido y la extracción de tono estable de KVC corrige los artefactos de pronunciación y la inconsistencia de tono que a menudo están presentes en otras salidas vocales generativas.

Además, esto le da a los usuarios el control sobre el timbre y el estilo de su voz objetivo.

El copiloto de IA para tu flujo de trabajo musical

KGV1 es un punto de partida para nuestra próxima generación de poderosos modelos generativos que satisfacen las necesidades prácticas de los productores de música. Para un vocalista, KGV1 podría esbozar ideas para líneas principales; para un productor, podría crear clips vocales únicos para muestreo o para uso en la producción final.

Al hablar con cientos de productores, artistas y vocalistas en la comunidad de Kits, creemos que las herramientas de música generativa son más poderosas trabajando en el contexto de un flujo de trabajo musical. Como tal, la investigación futura nos llevará hacia señales adicionales de acondicionamiento musical, como pistas instrumentales, curvas de tono, secuencias MIDI, BPM y prompts de estilo. Vemos KGV1 como el primer paso hacia una inteligencia musical generativa que encaja directamente en el flujo de trabajo creativo.

KGV1 estará disponible pronto en beta privada en app.kits.ai.