블로그

음악 제작

AI 보컬 사용 시 피해야 할 흔한 실수

쓰기, 작곡가 및 프로듀서 샘 키어니가 편집한 AI 보컬 변환을 최대한 활용하는 가장 좋은 팁과 요령을 위한 읽을 거리를 확인하세요.

작성자

샘 키어니

게시됨

2024년 8월 23일

링크 복사

복사됨

소개

AI 보컬을(를) 귀하의 음악에 통합하는 것은 인공지능의 발전 덕분에 음악가와 프로듀서에게 흥미롭고 혁신적인 도구입니다. 모든 새로운 기술과 마찬가지로 최상의 결과를 얻기 위해서는 세심한 조정이 필요합니다. 키트에서 우리는 정확하고 현실적인 AI 보컬 모델 훈련을 위한 이상적인 설정을 만들기 위해 데이터 세트를 처리합니다. 시간이 지나면서 저는 AI 생성 보컬의 성능을 저해할 수 있는 일반적인 실수를 관찰했습니다. 이 기사에서는 이러한 함정을 강조하고 AI 보컬 모델을 최적화하는 방법에 대한 팁을 제공하겠습니다.

레벨 및 다이나믹스

인간의 목소리는 지문처럼 독특하며, 그 자체의 음색과 감정적 뉘앙스가 있습니다. 노래 부르는 것은 일반적으로 감정 표현의 고조된 형태이며 자연스럽게 음량이 달라질 수 있습니다. 보컬 녹음 시 이러한 변화를 마이크 기술과 압축기를 사용하여 관리합니다. 경력이 있는 세션 가수는 종종 강한 부분에서 마이크와의 거리를 조정하여 “자체 압축(self-compress)”을 할 수 있습니다. 그러나 이 기술을 사용하더라도 균형 잡힌 믹스를 유지하기 위해 추가 압축이 일반적으로 필요합니다.

자연 압축이 노래에 유익한 것처럼 AI 보컬 모델 훈련 과정에도 도움이 됩니다. Kits AI에서는 제어된 다이나믹 범위를 가진 보컬 트랙이 보컬 클로닝에 더 나은 결과를 제공한다는 것을 발견했습니다. 특히 처리하는 고급 소프트웨어를 사용할 때 더욱 그렇습니다. 훈련을 위해 보컬을 준비하기 위한 저의 개인적인 기술은 트랙을 DAW에 가져와 극단적인 부분 일부를 레벨링한 후 모든 추가 압축을 적용하는 것입니다. 이렇게 하면 압축기가 비자연적인 소리를 도입하지 않고도 효율적으로 작동할 수 있습니다.

아래 이미지에서 위쪽 트랙은 원래 데이터 세트를 보여주며, 아래쪽 트랙은 제 레벨링 조정을 보여줍니다:

이 접근 방식을 사용함으로써 압축의 가벼운 터치만 필요합니다. 3-5 dB의 게인 감소 이상을 권장하지 않습니다.

최상의 결과를 얻으려면 평균 볼륨 레벨을 -12 dB로 설정하고 피크는 -6 dB를 넘지 않도록 하십시오. 이는 기계 학습을 위한 훌륭한 기반을 제공하며 보다 현실적인 AI 음성 모델을 만듭니다.

Harsh Sibilance 줄이기 위해 De-ess 하기

“s”, “t”, “z”와 같은 자음 때문에 발생하는 harsh sibilance는 보컬 녹음에서 주의가 산만하고 불쾌할 수 있습니다. FabFilter의 Pro-DS와 같은 De-esser는 이러한 밝은 소리를 제어하는 데 필수적입니다. 이는 귀하의 AI 음성 모델이 이러한 거친 요소를 복제하도록 훈련되지 않도록 하여 보다 부드럽고 전문적인 출력을 보장합니다.

EQ: 스펙트럼 균형 조정

Equalization (EQ)은 보컬 녹음의 소리를 형성하는 데 중요한 역할을 합니다. 특정 EQ 설정은 음악적 내용에 따라 달라질 수 있지만, 제대로 균형 잡힌 EQ는 AI 음성 클론의 품질을 크게 향상시키고 귀하의 AI 음성 모델이 존재할 맥락과 장르에 대한 훌륭한 출발점을 제공합니다.

보컬 톤에 기여하지 않는 불필요한 저음 주파수를 제거하기 위해 하이 패스 필터로 시작하십시오. 그러나 100 Hz를 넘을 때는 주의해야 합니다. 이는 보컬 음색의 중요한 요소를 제거할 수 있습니다.

스펙트럼의 반대쪽에서, 저렴한 마이크로폰에서 도입될 수 있는 harsh high-end 주파수를 주의하십시오. 모든 사람이 빈티지 Neumann을 통해 노래할 수 있는 것은 아닙니다 (저를 포함하여). 로우 패스 필터는 일반적으로 20 kHz 이상의 주파수를 다듬는 데 유용할 수 있습니다.

부드럽고 따뜻한 특성을 가진 Pultec EQP-1A와 같은 EQ를 사용하면 저음의 럼블을 정리하고 고음을 부드럽게 하는 훌륭한 선택입니다.

피치 보정: 언제 어떻게 사용할지

피치 보정 도구는 Antares Auto-Tune의 무료 버전과 같은 현대 음악 제작에서 효과로 자주 사용됩니다. 그러나 AI 음성 모델 훈련 시에는 보컬을 자연스럽게 유지하고 보컬이 이미 클론된 후에 피치 보정을 적용하는 것이 좋습니다. 이 접근 방식은 귀하의 AI 모델의 현실성을 유지하고 향후 보다 자연스러운 사운드를 요구할 수 있는 프로젝트에 대한 유연성을 제공합니다.

보컬 다양성: 소스 자료 확장하기

AI 보컬 훈련에서 가장 흔한 실수 중 하나는 보컬 데이터 세트의 다양성이 부족하다는 것입니다. 기계 학습 모델은 제공된 자료에서만 훈련할 수 있으므로 제한된 데이터 세트는 제한된 보컬 모델로 이어집니다. 예를 들어, 제가 받은 제출물 중에는 가수가 한 곡을 계속해서 부르는 경우가 있습니다. 그 곡에서 멋지게 들릴지는 모르겠지만, 그들이 더 높은 음역과 낮은 음역에 도달할 수 있고, 더 강렬하고 부드러운 보컬의 발음을 발산할 수 있다는 것을 알고 있습니다. 이는 기계 학습이 추가 정보를 접근할 수 없기 때문에 이들의 보컬 모델에 포함되지 않습니다. 결과적으로 이것은 AI 음성 모델에 매우 제한된 사용 사례를 제공합니다.

다양한 AI 음성을 만들기 위해서, 훈련 자료에 다양한 보컬 퍼포먼스를 포함하십시오. 이는 다양한 고음역, 감정 표현 및 보컬 기술을 포함해야 하며, 실제 아티스트의 다양성을 모방하기 위해 가슴 소리와 플레토 목소리 모두를 포함해야 합니다. 최소 요구 사항은 15분의 오디오이지만, 가수의 능력 전체 범위를 포착하기 위해 전체 30분을 이용하는 것을 권장합니다.

빈 공간 제거하기

보컬 제출물은 종종 전체 곡의 아카펠라 버전입니다. 기계 학습 프로세스는 보컬 성능을 분석하는 데만 관심이 있으므로, 긴 빈 공간(전체 곡의 기악 섹션일 수 있음)은 불필요하며 데이터 세트에서 귀중한 시간을 차지합니다. AI 음성 모델을 최적화하기 위해 비보컬 섹션을 제거하고 오디오가 연속적인지 확인하십시오. 이러한 접근 방식을 활용하면 훈련 데이터를 최대화하고 귀하의 모델이 가능한 한 많은 현실성을 유지하는 데 도움이 됩니다.

오디오를 진짜 모노로 내보내기

마지막으로, 항상 보컬 스템을 진짜 모노 트랙으로 내보내십시오. 모노에서 녹음된 경우에도 스테레오 트랙을 제출하면 인식된 데이터가 두 배가 되어 훈련에 사용할 수 있는 자료의 양이 감소합니다. 최고의 보이스 클로닝 결과를 얻기 위해서는 모델이 훈련받을 수 있는 자료의 양을 극대화하기 위해 보컬 트랙을 모노로 바운스한 후 Kits.AI에 업로드하십시오.

결론

이 팁을 따르면 일반적인 AI 보컬 실수를 피하고 이 강력한 도구의 잠재력을 최대한으로 활용할 수 있습니다. 기억하십시오, AI는 창작 도구가 아니라 창작자의 도구입니다. 모든 새로운 도구와 신기술과 마찬가지로 학습 곡선이 있지만, 올바른 접근 방식으로 AI 보컬을 음악에 통합하면 한때 상상할 수 없었던 새로운 가능성을 열 수 있습니다.

-SK

샘 케어니는 콜로라도 에버그린에 기반을 둔 프로듀서, 작곡가 및 사운드 디자이너입니다.

제목

시작하세요, 무료로.

스튜디오 품질의 AI 오디오 도구로 음성 제작 워크플로를 간소화하세요.

시작하기

시작하세요, 무료로.

스튜디오 품질의 AI 오디오 도구로 음성 제작 워크플로를 간소화하세요.

시작하기

시작하세요, 무료로.

스튜디오 품질의 AI 오디오 도구로 음성 제작 워크플로를 간소화하세요.

시작하기

당신을 위한 추천 블로그 글

기능

가격

데스크톱 앱

연구

블로그

Select Language

Log in

시작하기

AI 보컬 사용 시 피해야 할 흔한 실수

소개

레벨 및 다이나믹스

Harsh Sibilance 줄이기 위해 De-ess 하기

EQ: 스펙트럼 균형 조정

피치 보정: 언제 어떻게 사용할지

보컬 다양성: 소스 자료 확장하기

빈 공간 제거하기

오디오를 진짜 모노로 내보내기

결론

당신을 위한 추천 블로그 글

제품

기능

법적인

자원

기능

기능

가격

데스크톱 앱

연구

블로그

Log in