INVESTIGACIÓN

Desarrollo ético de IA

9 de diciembre de 2024

por Anastasiia Herus

Cuando Kits.AI se lanzó en 2023, la industria musical estaba frenética con emoción y aprensión sobre la IA. Momentos virales como la pista generada por IA Heart on My Sleeve (Los Clones de IA de The Weeknd x Drake) amplificaron un debate polarizado: ¿Es la IA una amenaza para el arte o una poderosa nueva herramienta?

Esta publicación presenta el marco ético que Kits.AI ha desarrollado para navegar por estas áreas grises y garantizar que la innovación en inteligencia artificial beneficie a artistas, desarrolladores y oyentes por igual.

Código Abierto (RVC)

0:00/1:34

“Weathered fences / summer's ended / with my friends and never better.”

0:00/1:34

“Something about the way you sound / when you sing out of the blue.”

0:00/1:34

“As I was sleeping on your couch, you woke up to see him out, oh…”

0:00/1:34

“We will wake up with the sun, cause now we know just who we’re living for”

0:00/1:34

“This one goes out to the team, without you what would I be”

0:00/1:34

La imagen de arriba contiene alrededor de 20,000 valores individuales, o "pesos", que conforman una sola capa en un modelo de IA. Cada uno de estos parámetros se ajusta miles de veces durante el entrenamiento a medida que el modelo mejora en cumplir con su tarea prevista (convertir voces, generar nuevos sonidos, etc.). Un solo modelo a menudo contiene entre 30 y 50 capas o más.

Beyond that, we’re able to achieve higher fidelity vocal output over other text-to-audio generative models by leveraging modules from Kits Voice Conversion (KVC). Integrating the content encoder, content retrieval, and stable pitch extraction from KVC fixes pronunciation artifacts and pitch inconsistency that are often present in other generative vocal outputs.

Additionally, this gives users control over the timbre and style of their target voice.

Navegando por el área gris

From talking with hundreds of producers, artists, and vocalists in the Kits community, we believe generative music tools are most powerful working in the context of a music workflow. As such, future research will move us towards additional musical conditioning signals such as instrumental tracks, pitch curves, MIDI sequences, BPM, and style prompts. We see KGV1 as the first step towards a generative musical intelligence that fits directly into the creative workflow.

KGV1 will soon be available in private beta at app.kits.ai.