Kits e Descript: Ferramentas de IA para Criadores de Áudio
Written by
Published on
19 de março de 2024
Nos últimos anos da revolução da inteligência artificial, muita atenção foi dada ao que a IA pode fazer por artistas visuais. Bilhões de pessoas experimentaram ferramentas como Dall-E, Midjourney e a ferramenta de Preenchimento Generativo do Photoshop para criar imagens com IA.
Mas você sabia que existem ferramentas semelhantes para projetos de áudio? Músicos, produtores, podcasters, streamers, editores de vídeo e mais podem usar IA para aprimorar cada etapa de seu fluxo de trabalho.
Neste artigo, vamos olhar para duas das ferramentas de áudio de IA mais populares: Kits, uma plataforma vocal de IA para música, e Descript, um editor de áudio alimentado por IA para podcasts.
Ferramentas de Vocal AI do Kits
Kits é uma poderosa ferramenta de produção musical que usa IA para criar áudio de alta qualidade. Com Kits, você pode converter um cantor em outro e clonar a voz de um cantor. As oportunidades criativas são infinitas.
Conversão de Voz
Kits é construído em torno do Convert, que muda a voz de um cantor para uma completamente diferente. Enquanto outras ferramentas de IA fazem isso para fala, Kits é o primeiro a oferecer isso para canto. Os resultados são tão bons que podem passar por cantores profissionais gravados em um estúdio de alto padrão, tornando-o uma ferramenta extremamente versátil para produtores.
Basta fazer o upload de um arquivo, link de vídeo do YouTube ou gravar diretamente no aplicativo da web. Em poucos segundos, sua canção terá um novo cantor!
Você pode ajustar a Conversão com controles avançados:
Remova instrumentais, reverberação e atraso, e/ou vocais de apoio da sua gravação para obter melhores resultados.
Ajuste de Pitch: Aumente ou diminua o tom em até 24 semitons.
Força da Conversão: Adiciona mais acento e articulação à geração, mas pode causar resultados inesperados em níveis altos.
Equilíbrio de Volume: Controle o equilíbrio entre o volume de entrada e o modelo. Valores mais baixos revelam mais da dinâmica original.
Efeitos de Pré-processamento: Corte ruídos, roncos e aspereza, suavize o volume, e/ou aplique autotune antes da geração.
Efeitos de Pós-processamento: Aplique compressor, coro, reverberação, e/ou atraso ao resultado.
Tutorial de Treinamento de Voz
A característica mais futurista do Kits é Treinamento de Voz. Basta fazer o upload de um arquivo de áudio ou colar um link de vídeo do YouTube, e Kits treina um modelo de IA para criar uma cópia perfeita da voz do cantor. Esta nova Voz pode ser usada em vez de uma voz padrão ou mesclada para qualquer conversão (mais sobre isso abaixo).
Kits oferece a melhor ferramenta de Treinamento de Voz disponível para cantores. Outras ferramentas de IA também oferecem para fala, incluindo Descript, que cobriremos em detalhes abaixo. No entanto, Descript usa essa função principalmente para corrigir erros ou gerar texto-para-fala simples. Kits permite que você use sem esforço o modelo de voz treinado para conversões, o que é uma grande vantagem.
Para treinar a voz, Kits permite qualquer formato de áudio gravado. Recomenda 10 minutos para os melhores resultados, mas aceita até uma hora. (Para comparação, Descript exige que você leia um script específico para usar como modelo de voz.) A partir daí, basta adicionar um nome e uma foto, e então treinar sua nova voz! Ela será salva na sua Biblioteca de Voz para uso futuro.
Biblioteca de Voz
Kits oferece mais de 50 Voze de Artistas em sua Biblioteca de Voz. Cada uma é nomeada de acordo com seu gênero e estilo musical, como Masculino Afro Beat ou Feminino Bedroom Pop. Você pode classificar a Biblioteca por faixa de tom, gênero e estilo, e existem até vozes para outros idiomas e estilos de música mundial. Todas são completamente livres de royalties, então você pode usá-las como quiser.
Para personalizar ainda mais seu som, você pode combinar duas Voze com o Blender de Voz. O controle deslizante de Proporção de Mistura controla quanto de cada voz usar no treinamento do novo modelo.
Além disso, Kits oferece instrumentos, incluindo guitarra, baixo, saxofone e violoncelo. Isso permite que você crie instrumentais sem esforço: basta gravar rapidamente você cantando ou fazendo um som, e depois converter isso em uma voz de instrumento.
Texto-Para-Fala
Kits também oferece uma função de texto-para-fala em 14 idiomas, para narrações, voiceovers e outros conteúdos falados. Como a Biblioteca de Voz do Kits é calibrada para canto, os resultados tendem a ser mais naturais do que outras IAs. Insira seu script, selecione uma faixa de tom e gere a fala. Toda a Biblioteca de Voz pode ser usada, além de vozes Blended e Treinadas.
Aprimoradores de Áudio AI
Remover Vocais
Outra ferramenta de música alimentada por IA no Kits é o Removedor de Vocais. Faça o upload de uma canção ou link do YouTube e o Removedor de Vocais separa os vocais da instrumental e de outros ruídos de fundo. Configurações avançadas permitem que você remova vocais de apoio e ajuste a reverberação, eco e redução de ruído. Com IA integrada, o Removedor de Vocais do Kits tende a fazer um trabalho melhor do que softwares tradicionais na extração precisa de vocais mesmo quando sons semelhantes se sobrepõem.
Mestre de AI
Mastigação é a fase final do fluxo de trabalho de produção musical. Compressão, limitação, EQ e mais são aplicados para aperfeiçoar o som final e garantir que as faixas individuais funcionem bem juntas. Isso historicamente tem sido um dos elementos mais difíceis e caros da produção, mas Kits AI permite até novos produtores masterizar faixas em segundos.
Kits oferece seis predefinições de masterização:
Leve & Brilhante
Pesado em Graves
Impacto & Ar
Luxuoso
Cola de Fita
Calor Analógico
Como o processo amigável ao usuário leva apenas segundos, você pode experimentar para ver qual funciona melhor. Você também pode fazer o upload de uma faixa de referência, cujo som o Kits usará como modelo.
Kits não é apenas a ferramenta de canto de IA mais poderosa disponível no mercado, mas uma ferramenta essencial para produtores de música moderna. Usa IA para aprimorar cada estágio da produção vocal, permitindo que você produza melhores vocais com menos tempo, menos dinheiro e mais criatividade.
Descript: Editor de Podcasts AI
Descript é uma das ferramentas mais poderosas disponíveis hoje para podcasters, com um conjunto rico de funções de áudio de IA construídas em torno de um editor de podcasts baseado em texto. (A Descript também oferece algumas ferramentas de conteúdo em vídeo, mas não vamos entrar nesses detalhes aqui.)
Espere, editor de áudio baseado em texto? Sim, a Descript transcreve automaticamente seu áudio para que você possa editá-lo como um documento, com suas alterações refletidas no áudio. Gravações longas são transcritas em segundos e armazenadas com segurança na nuvem, e cada falante é etiquetado automaticamente. Além disso, funciona em 22 idiomas. Além dessa experiência única do usuário, há uma ampla gama de outras ferramentas de áudio de IA para edição de vídeo:
Vozes AI
Como o Kits, a Descript inclui vozes padrão que podem ser usadas para texto-para-fala. Há um total de 21, com etiquetas para descrever sua voz: Masculina ou Feminina, Mais Jovem, Adulto ou Mais Velho, além de sotaques e estilos.
A Descript também tem um recurso de clonagem de voz semelhante ao Treinamento de Voz do Kits. Curiosamente, a Descript só permite que você clone sua própria voz. Para verificar isso, você deve gravar sua leitura de um script especial como modelo. Sua voz pode ser salva para uso em texto-para-fala, assim como futuras Sobreposições da sua própria fala.
Regenerar Qualquer Transcrição
Regenerar essencialmente cria uma mini cópia de voz (sem o processo mais longo descrito acima), então regenera um trecho selecionado do texto na transcrição da gravação. Isso permite edições de áudio que seriam impossíveis sem IA -- e pode ser o recurso mais poderoso da Descript.
Por exemplo, digamos que você está gravando em casa e a campainha toca. Normalmente, cortar esse momento seria demorado, e fazê-lo de forma limpa o suficiente que os ouvintes não notem pode ser impossível. Mas com a Descript, basta localizar o momento na transcrição, destacá-lo e clicar em Substituir por → Regenerar. A fala gerada por IA será perfeitamente inserida nesse trecho da gravação original.
E se você chamar seu colega de quarto para atender à porta? Você pode facilmente deletar as palavras fora do tópico da transcrição, mas isso deixará uma desconexão óbvia que os ouvintes podem ouvir. Basta Regenerar a frase ao redor do corte e a voz da IA corresponderá ao tom e à entonação para escondê-lo perfeitamente.
Sobreposição
Debaixo de Regenerar no menu Substituir por está Sobreposição. Em vez de usar a voz da IA para suavizar edições, Sobreposição a usa para inserir novas palavras no podcast. Se você pronunciar uma palavra incorretamente, falhar em uma linha, ou simplesmente não se articular tão bem quanto deveria, você pode instantaneamente cortar a parte indesejada e substituí-la por uma sobreposição de IA.
Como a Descript identifica automaticamente diferentes falantes, a sobreposição combinará automaticamente com o falante correto. Além disso, o novo áudio corresponderá à qualidade do microfone, ruído de fundo e entonação da gravação ao redor.
Som de Estúdio
Com um clique, O Som de Estúdio’s algoritmos fazem qualquer gravação soar profissional. Basta alternar o interruptor em Efeitos de Áudio, e O Som de Estúdio separa vozes do ruído de fundo para aprimorar ambos. O controle deslizante de Intensidade controla como fortemente o efeito é aplicado. A voz será aprimorada, então até uma gravação rápida do iPhone soa como um microfone de alta qualidade. Aperfeiçoe seu arquivo de vídeo e remova o ruído de fundo, chiados e eco da sala em etapas simples e intuitivas.
Remoção de Palavras de Preenchimento
Todo podcaster já passou por isso: você grava um episódio e acha que foi bem. Mas quando ouve de volta, sua fala está repleta de “tipo”, “hum”, silêncios e outros preenchimentos. Essas pequenas coisas podem, infelizmente, ter um grande impacto em como você se apresenta.
A Remoção de Palavras de Preenchimento está integrada ao Descript, e como o resto de suas funcionalidades, é incrivelmente simples de usar. Quando seu áudio é transcrito, palavras de preenchimento serão sublinhadas automaticamente. Clique no ícone de estrela, então use a ferramenta de edição para “Remover palavras de preenchimento” e “Encurtar lacunas de palavras” para limpar sua fala.
Encontrando a Melhor Ferramenta de IA para Você
Kits e Descript estão na vanguarda da produção de áudio habilitada por IA. Suas ferramentas funcionam de maneira simples e elegante para aprimorar seu fluxo de trabalho existente. Ferramentas poderosas com preços poderosos, como a Conversão de Voz do Kits e o Treinamento de Voz e o editor baseado em texto do Descript, abrem possibilidades reativas que nunca existiram antes. Além disso, recursos como o Removedor de Vocais e o Mastering de IA no Kits e Regenerar e Remoção de Palavras Preenchidas na Descript eliminam os aspectos mais demorados e tediosos da produção de áudio. Como as ferramentas de áudio de IA o tornarão um criador melhor?