PESQUISA

Desenvolvimento de IA Ética

9 de dezembro de 2024

por Anastasiia Herus

Quando Kits.AI foi lançado em 2023, a indústria da música estava frenética com excitação e apreensão em relação à IA. Momentos virais como a faixa gerada por IA Coração na Minha Manga (The Weeknd x Drake IA Clones) amplificaram um debate polarizado: A IA é uma ameaça para a arte ou uma nova ferramenta poderosa?

Este post apresenta a estrutura ética que a Kits.AI desenvolveu para navegar nessas áreas cinzentas e garantir que a inovação em IA beneficie artistas, desenvolvedores e ouvintes.

Código Aberto (RVC)

0:00/1:34

“Cercas envelhecidas / o verão acabou / com meus amigos e nunca melhor.”

0:00/1:34

“Algo sobre a forma como você soa / quando canta do nada.”

0:00/1:34

“Enquanto eu dormia no seu sofá, você acordou para vê-lo sair, oh...”

0:00/1:34

"Nós vamos acordar com o sol, porque agora sabemos por quem estamos vivendo"

0:00/1:34

"Esta vai para a equipe, sem vocês o que eu seria"

0:00/1:34

A imagem acima contém cerca de 20.000 valores individuais, ou "pesos", que compõem uma única camada em um modelo de IA. Cada um desses parâmetros é ajustado milhares de vezes durante o treinamento, à medida que o modelo melhora em cumprir sua tarefa pretendida (converter vocais, gerar novos sons, etc). Um único modelo geralmente contém de 30 a 50+ camadas.

Além disso, conseguimos alcançar uma saída vocal de maior fidelidade em relação a outros modelos generativos de texto para áudio ao aproveitar módulos do Kits Voice Conversion (KVC). A integração do codificador de conteúdo, recuperação de conteúdo e extração de pitch estável do KVC corrige artefatos de pronúncia e inconsistências de pitch que frequentemente estão presentes em outras saídas vocais generativas.

Além disso, isso dá aos usuários controle sobre o timbre e o estilo de sua voz-alvo.

Navegando na área cinza

Ao conversar com centenas de produtores, artistas e vocalistas da comunidade Kits, acreditamos que as ferramentas de música generativa são mais poderosas quando funcionam no contexto de um fluxo de trabalho musical. Assim, pesquisas futuras nos levarão a sinais de condicionamento musical adicionais, como faixas instrumentais, curvas de pitch, sequências MIDI, BPM e prompts de estilo. Vemos o KGV1 como o primeiro passo em direção a uma inteligência musical generativa que se encaixa diretamente no fluxo de trabalho criativo.

KGV1 estará disponível em beta privado em app.kits.ai.