Kits e Descript: Ferramentas de IA para Criadores de Áudio
Escrito por
Publicado em
19 de março de 2024
Nos últimos anos da revolução da inteligência artificial, muita atenção foi focada no que a IA pode fazer pelos artistas visuais. Bilhões de pessoas experimentaram ferramentas como Dall-E, Midjourney e a ferramenta Generative Fill do Photoshop para criar imagens com IA.
Mas você sabia que existem ferramentas semelhantes para projetos de áudio? Músicos, produtores, podcasters, streamers, editores de vídeo e mais podem usar IA para aprimorar cada etapa de seu fluxo de trabalho.
Neste artigo, vamos olhar para duas das ferramentas de áudio em IA mais populares: Kits, uma plataforma vocal de IA para música, e Descript, um editor de áudio para podcasts com tecnologia de IA.
Ferramentas de IA do Kits para Vocais
Kits é uma ferramenta poderosa de produção musical que usa IA para criar áudio de alta qualidade. Com o Kits, você pode transformar um cantor em outro e clonar a voz de um cantor. As oportunidades criativas são infinitas.
Conversão de Voz
Kits é construído em torno de Converter, que transforma a voz de um cantor em uma completamente diferente. Enquanto outras ferramentas de IA fazem isso para fala, Kits é o primeiro a oferecer isso para canto. Os resultados são tão bons que podem ser confundidos com cantores profissionais gravados em um estúdio de alta qualidade, tornando-se uma ferramenta extremamente versátil para produtores.
Basta fazer o upload de um arquivo ou gravar diretamente no aplicativo da web. Em segundos, sua melodia terá um novo cantor!
Você pode ajustar a Conversão com controles avançados:
Remova instrumentais, reverberação e delay, e/ou vocais de apoio da sua gravação para melhores resultados.
Alteração de Tom: Aumente ou diminua o tom em até 24 semitons.
Força da Conversão: Adiciona mais acento e articulação à geração, mas pode causar resultados inesperados em altos níveis.
Mixagem de Volume: Controle o equilíbrio entre o volume de entrada e o modelo. Valores mais baixos revelam mais das dinâmicas originais.
Efeitos de Pré-processamento: Corte ruído, tremor e aspereza, suavize o volume e/ou ajuste automático antes da geração.
Efeitos de Pós-processamento: Aplique compressor, coro, reverberação e/ou delay ao resultado.
Tutorial de Treinamento de Voz
A característica mais futurista do Kits é Treinamento de Voz. Basta fazer o upload de um arquivo de áudio e o Kits treina um modelo de IA para criar um clone perfeito da voz do cantor. Essa nova Voz pode ser usada em vez de uma voz padrão ou mesclada para qualquer conversão (mais sobre isso abaixo).
Kits oferece a melhor ferramenta de Clonagem de Voz disponível para cantores. Outras ferramentas de IA oferecem isso para fala, incluindo o Descript, que abordaremos em detalhes abaixo. No entanto, o Descript utiliza essa função principalmente para corrigir erros ou gerações simples de texto para fala. O Kits permite que você use de forma simples o modelo de voz treinado para conversões, o que é uma grande vantagem.

Para treinar a voz, o Kits permite qualquer formato de áudio gravado. Recomenda 10 minutos para melhores resultados, mas aceita até uma hora. (Para comparação, o Descript exige que você leia um roteiro específico para usar como modelo de voz.) A partir daí, basta adicionar um nome e foto, e então treine sua nova voz! Ela será salva em sua Biblioteca de Voz para uso futuro.
Biblioteca de Voz
Kits oferece mais de 150 Vozes de Artistas em sua Biblioteca de Voz. Cada uma é nomeada de acordo com seu gênero e estilo, como Afro Beat Masculino ou Pop Feminino. Você pode classificar a Biblioteca por faixa de tom, gênero e estilo, e há até vozes para outros idiomas e estilos de música mundial. Todas são completamente livres de royalties, para que você possa usá-las como quiser.

Para personalizar ainda mais seu som, você pode combinar duas Vozes com o Misturador de Voz. O controle de Proporção de Mistura controla quanto de cada voz usar no treinamento do novo modelo.

Além disso, o Kits oferece instrumentos, incluindo guitarra, baixo, saxofone e violoncelo. Isso permite que você crie instrumentais sem esforço: basta gravar rapidamente você cantando ou cantando uma parte e, em seguida, convertê-la em uma voz de instrumento.
Texto-Para-Fala
Kits também oferece uma função de texto-para-fala em 14 idiomas, para narração, locuções e outros conteúdos falados. Como a Biblioteca de Voz do Kits é calibrada para canto, os resultados tendem a ser mais naturais do que em outras IAs. Digite seu roteiro, selecione uma faixa de tom e gere a fala. Toda a Biblioteca de Voz pode ser usada, além das vozes Mescladas e Treinadas.

Aprimoradores de Áudio em IA
Remoção de Vocais
Outra ferramenta musical impulsionada por IA no Kits é o Removedor de Vocais. Faça upload de uma música e o Removedor de Vocais separa os vocais do instrumental e de outros ruídos de fundo. Configurações avançadas permitem remover vocais de apoio, além de alternar entre reverberação, eco e redução de ruído. Com IA integrada, o Removedor de Vocais do Kits tende a fazer um trabalho melhor do que softwares tradicionais na extração precisa de vocais, mesmo quando sons semelhantes se sobrepõem.

Masterização em IA
Masterização é a fase final do fluxo de trabalho de produção musical. Compressão, limitador, EQ e mais são aplicados para aperfeiçoar o som final e garantir que as faixas individuais funcionem bem juntas. Historicamente, isso tem sido um dos elementos mais difíceis e caros da produção, mas a IA do Kits permite que até mesmo novos produtores masterizem faixas em segundos.
Kits oferece seis predefinições de masterização:
Leve & Brilhante
Pesado em Grave
Punch & Ar
Luxuoso
Cola de Fita
Calor Analógico
Como o processo amigável ao usuário leva apenas segundos, você pode experimentar para ver qual funciona melhor. Você também pode fazer upload de uma faixa de referência, cujo som o Kits usará como modelo.

Kits não é apenas a ferramenta de canto em IA mais poderosa do mercado, mas uma ferramenta essencial para produtores musicais modernos. Ela usa IA para aprimorar cada estágio da produção vocal, permitindo que você produza vocais melhores em menos tempo, menos dinheiro e com mais criatividade.
Descript: Editor de Podcast em IA
Descript é uma das ferramentas mais poderosas disponíveis hoje para podcasters, com um rico conjunto de funções de áudio em IA construídas em torno de um editor de podcast baseado em texto. (O Descript também oferece algumas ferramentas de conteúdo em vídeo, mas não iremos entrar nesses aspectos aqui.)
Espere, editor de áudio baseado em texto? Sim, o Descript transcreve automaticamente seu áudio para que você possa editá-lo como um documento, com suas alterações refletidas no áudio. Gravações longas são transcritas em segundos e armazenadas de forma segura na nuvem, e cada orador é automaticamente identificado. Além disso, funciona em 22 idiomas. Além dessa experiência única do usuário, há uma ampla gama de outras ferramentas de áudio em IA para edição de vídeo:
Vozes em IA
Como o Kits, o Descript inclui vozes padrão que podem ser usadas para texto-para-fala. São 21 no total, com tags para descrever suas vozes: Masculina ou Feminina, Jovem, Adulto ou Idoso, além de sotaques e estilos.

O Descript também possui um recurso de clonagem de voz semelhante ao Treinamento de Voz do Kits. Curiosamente, o Descript permite que você clone apenas a sua própria voz. Para verificar isso, você deve gravar a si mesmo lendo um roteiro especial como modelo. Sua voz pode ser salva para uso como texto-para-fala, bem como para futuras sobreposições da sua própria fala.

Regenerar Qualquer Transcrição
Regenerar basicamente cria um mini clone de voz (sem o processo mais longo descrito acima), então regenera um trecho selecionado de texto na transcrição de gravação. Isso permite edições de áudio que seriam impossíveis sem IA - e pode ser o recurso mais poderoso do Descript.
Por exemplo, digamos que você esteja gravando em casa e a campainha toca. Normalmente, cortar esse momento seria demorado, e fazê-lo de forma limpa o suficiente para que os ouvintes não notem pode ser impossível. Mas com o Descript, basta localizar o momento na transcrição, destacá-lo e clicar em Substituir Por → Regenerar. A fala gerada por IA será seamlessmente inserida nessa seção da gravação original.
E se você chamar seu colega de quarto para atender a porta? Você pode facilmente excluir as palavras fora do tópico da transcrição, mas isso deixará uma desconexão óbvia que os ouvintes podem notar. Basta Regenerar a frase ao redor da inserção e a voz da IA irá combinar o tom e a entonação para ocultá-la perfeitamente.
Sobreposição
Abaixo de Regenerar no menu Substituir Por está Sobreposição. Em vez de usar a voz de IA para suavizar edições, a Sobreposição a usa para inserir novas palavras no podcast. Se você pronunciar uma palavra incorretamente, errar uma linha ou simplesmente não articular bem o que deveria, pode cortar instantaneamente a parte indesejada e substituí-la por uma sobreposição de IA.
Como o Descript identifica diferentes oradores automaticamente, a sobreposição se ajustará automaticamente ao orador correto. Além disso, o novo áudio corresponderá à qualidade do microfone, ruído de fundo e entonação da gravação à sua volta.

Som de Estúdio
Com um clique, Som de Estúdio’s algoritmos fazem qualquer gravação soar profissional. Basta alternar o botão sob Efeitos de Áudio, e o Som de Estúdio separa vozes do ruído de fundo para aprimorar ambas. O controle de Intensidade controla quão fortemente o efeito é aplicado. A voz será aprimorada, então até mesmo uma rápida gravação do iPhone soará como um microfone de alta qualidade. Aperfeiçoe seu arquivo de vídeo e remova o ruído de fundo, chiado e eco de sala em etapas simples e intuitivas.
Remoção de Palavras de Preenchimento
Todo podcaster já passou por isso: você grava um episódio e acha que arrasou. Mas quando você ouve, sua fala está cheia de “tipo,” “hum,” silêncio e outras palavras de preenchimento. Essas pequenas coisas podem, infelizmente, ter um impacto enorme em como você se apresenta.
A Remoção de Palavras de Preenchimento está embutida no Descript, e como o resto de suas características, é incrivelmente simples de usar. Quando seu áudio é transcrito, as palavras de preenchimento são sublinhadas automaticamente. Clique no ícone da estrela e, em seguida, use a ferramenta de edição para “Remover palavras de preenchimento” e “Encurtar lacunas” para limpar sua fala.

Encontrando a Melhor Ferramenta de IA Para Você
Kits e Descript estão na vanguarda da produção de áudio habilitada por IA. Suas ferramentas funcionam de forma simples e elegante para aprimorar seu fluxo de trabalho existente. Ferramentas poderosas com preços poderosos como a Conversão de Voz e o Treinamento de Voz do Kits e o editor baseado em texto do Descript abrem possibilidades reativas que nunca existiram antes. Além disso, recursos como o Removedor de Vocais e a Masterização em IA no Kits e a Regeneração e a Remoção de Palavras Preenchimento no Descript eliminam os aspectos mais demorados e tediosos da produção de áudio. Como as ferramentas de áudio em IA farão de você um criador melhor?