AI 노래 음성 훈련 및 맞춤화
작성자
게시됨
2024년 11월 6일
키츠에서의 나의 주요 역할 중 하나는 우리의 로열티 없는 모델이 단순히 듣기 좋을 뿐만 아니라 작업하기에도 영감을 주는 견고하고 영감을 주는 데이터셋으로 훈련받도록 하는 것입니다. 이 과정의 일부는 순전히 기술적이며, 다른 부분은 모델의 캐릭터를 형성하는 창의적인 선택에 기댑니다. 오늘은 자신의 훈련 데이터를 최적화하고 음성 모델에 독특한 개성을 추가하기 위한 의도적인 창의적 결정을 내리는 방법을 설명하겠습니다.
지난 몇 주 동안, 저의 기사들은 우리의 더 캐릭터 기반 음성을 만드는 과정과 제가 사용한 독특한 기술들에 대해 다뤘습니다. 제가 남성 오버드라이브 록 모델을 위해 기타 앰프를 통해 노래를 부르거나 빈티지 여성 재즈를 위해 스튜디오 모니터 중 하나를 캡처하기 위해 리본 마이크를 사용하는 등, 눈에 띄는 데이터셋을 만드는 방법은 정말 끝이 없습니다.
기초
견고한 기초는 어떤 음성 모델을 만드는 데 가장 중요한 부분입니다. 제가 추가하고 싶은 특별한 특성은 무엇이든지 간에, 저는 항상 깨끗한 보컬 캡처로 시작합니다. 이는 배경 소음– 에어컨, 냉장고의 웅웅거림, 무엇이든지–을 제거하는 것을 의미합니다. 이러한 소음은 모델의 사운드를 저하시켜 나중에 문제를 일으킬 수 있습니다. 만약 당신이 훌륭한 30분 데이터셋을 녹음했지만 재생 시 방 안에서 barely noticeable한 저음이 들린다면, 제가 그 경험을 해본 적이 있습니다! 저는 한 번 녹음에 몰입한 후에 앰프가 미친 듯이 웅웅거리거나 난방기가 백그라운드에서 돌고 있다는 것을 잡아낸 적이 있습니다. 초보자라면 고품질 보컬을 녹음하는 방법에 대한 우리의 가이드를 확인해 보세요.
iZotope RX와 같은 도구는 일관된 웅웅거림과 버징을 쉽게 수정할 수 있도록 도와줍니다. RX의 스펙트럴 디노이즈 모듈을 열고 배경 소음만 포함된 오디오의 한 부분을 선택한 다음 “Learn”을 클릭하고 오디오를 재생합니다. RX는 분석하고 자동으로 노이즈 감소를 조정합니다. 임계값과 감소 페이더를 조정하여 추가로 미세 조정할 수 있지만, RX는 성가신 아티팩트를 제거하는 것을 단순화합니다.
게인 레벨의 중요성
적절한 게인 레벨을 설정하는 것도 핵심입니다. 모델을 만들 때 저는 일관된 -12dB 레벨을 목표로 하며, 피크는 -6dB를 넘지 않도록 합니다. 이를 통해 오디오가 동적인 상태를 유지하면서 기계 학습에 효과적으로 훈련할 수 있는 이상적인 볼륨을 제공합니다. 저는 종종 볼륨이 너무 낮거나 레드에서 클리핑되는 제출물을 봅니다. 디지털 클리핑은 록 보컬에서 원하는 쾌적한 포화 상태를 제공하지 않습니다–그냥 거칠고, 기계 학습 알고리즘도 좋아하지 않습니다.
캐릭터 만들기
깨끗하고 견고한 데이터셋이 보통 최상의 기반이지만, DAW에 가져온 후에 조작할 수 있도록 해주기도 하지만, 때때로 훈련 데이터에 직접적으로 캐릭터를 넣는 것이 재미있습니다. 효과가 적용된 어떤 소음도 업로드하면 자동으로 모델에 해당 품질이 반영됩니다–나중에 DAW 매직이 필요 없습니다. 이는 라디오나 하이 미드 주파수를 강조하고 모래 같은 질감을 추가하는 무전기 효과와 같은 특정 음성 분위기에 접근하고자 하는 콘텐츠 제작자에게 완벽할 수 있습니다. 이를 전체 데이터셋에 적용하면 즉시 라디오에서 흘러나오는 것 같은 음성을 가진 모델이 준비됩니다.
아니면 구석에 있는 오래된 왜곡 페달을 dust off하는 것도 좋을 때입니다! 데이터셋을 통해 실행하면 전혀 새로운 레벨의 보컬 캐릭터를 추가할 수 있습니다.
저는 종종 보컬을 기타 앰프를 통해 실행하는 것을 좋아합니다–오버드라이브를 극대화하고 맛에 맞게 조정합니다. 왜 당신의 Marshall 하프 스택을 통해 쩌렁쩌렁 울려서 이웃들이 경찰을 부르기까지 얼마나 걸리는지 확인해 보지 않겠습니까!
그러나 아마도 소음 불만을 피하고 대신 이러한 작은 배터리 작동 Marshall 중 하나를 시도하는 것이 더 좋을 것입니다. (참고: 이 작은 앰프는 스튜디오에서 금과 같습니다–놓치지 마세요!)
또 다른 트릭? 와 페달. 특정 지점에서 와를 “고정”하면 다양한 필터 효과를 생성할 수 있습니다. 여기에서 화려할 필요 없습니다; 일반적인 Dunlop CryBaby도 좋습니다.
그리고 실제 lo-fi 분위기를 위해 리얼 테이프 데크 없이도 카세트 레코더를 시도해 보세요. 이 하나는 내장 마이크와 USB 2.0 포트를 갖추고 있습니다. 내장 마이크를 사용하여 스피커에서 카세트로 녹음하면 아름답게 저하되고 따뜻한 사운드를 생성할 수 있습니다. 저도 하나 가져야 할 것 같습니다–실험하기에 완벽합니다!
결론
결국 음악을 만드는 것은 재미있어야 하며, 저에게는 그것이 경계를 허물고 새로운 소리를 찾는 것을 의미합니다. 처음 업로드 시도가 원하는 방식으로 되지 않더라도 걱정하지 마세요–모든 테이크는 당신의 다음 행동에 정보를 제공하는 과정의 일부입니다. Kits.AI 는 당신이 영감을 주고 독특한 무언가를 창조할 수 있도록 도와주기 위해 여기 있습니다. 그러니 도전해 보세요–하늘이 한계입니다!
-SK
Sam Kearney 는 콜로라도 에버그린에 기반을 둔 프로듀서, 작곡가, 음향 디자이너입니다.