연구
키츠 음성 변환(KVC)
KVC: 스튜디오 품질의 노래 목소리 변환
Kits.AI 는 세계 최고의 전문 AI 노래 음성 변환 플랫폼입니다. 수백만 음악 제작자와 보컬리스트가 자연스러운 억양, 다이내믹, 그리고 인간 음성의 뉘앙스를 포착한 스튜디오 품질의 AI 보컬을 위해 Kits를 신뢰합니다.
Kits.AI의 연구팀은 음성에서 음성으로의 변환 시스템인 Kits Voice Conversion (KVC)을 설계하였습니다. 이는 음성 변환 기술의 품질 한계를 넘어서는 업계 선도적인 시스템입니다.
이 페이지는 KVC 내의 혁신 목록이 점점 늘어나는 것을 개괄하는 것입니다 — 개선된 아키텍처, 견고한 사전 훈련 가중치, 최적화된 인프라 — 전 세계 산업 전문가들이 최고의 선택으로 여기고 있는 이유입니다.
KVC 건축: 노래에 최적화됨
KVC는 전문 품질의 노래 출력을 최적화하기 위한 구조적 개선을 이루었습니다. 이 섹션에서는 발음, 음정 정확성, 주파수 범위 및 다이내믹스를 포함한 여러 측면에서 KVC가 오픈 소스 SVC 시스템을 능가할 수 있게 하는 구조적 개선 사항을 개요합니다.
킷 베이스 중량
키츠는 개별 보컬리스트로부터 소스된 독점 데이터셋을 선별하고 수작업으로 처리했습니다. 이들은 그들의 목소리 녹음에 대한 권리를 위해 보상을 받습니다. 이러한 녹음은 KVC 기본 가중치가 훈련되는 데이터셋을 형성합니다. KVC로 음성이 클론될 때마다 이 데이터셋의 품질을 기반으로 합니다.
우리의 훈련 데이터, 데이터 소싱 및 데이터 관리 관행은 공정한 훈련으로 인증되었습니다. 우리는 아티스트의 권리를 존중하고 그들을 재정적으로 지원하기 위해 헌신하고 있습니다.
음높이 감지: 키츠 하이브리드 피치
F0에 대한 더욱 정확한 탐지는 SVC 작업에 중요합니다. Kits Research 팀은 기본 Crepe, RMVPE 및 Mangio-Crepe를 능가하여 향상된 결과를 가져오는 Kits Hybrid Pitch라는 맞춤 피치 감지 알고리즘을 개발했습니다.
RMVPE에 대한 메트릭
하이브리드에 대한 메트릭
오픈 소스: RMVPE가 있는 RVC
키츠 하이브리드
적응형 콘텐츠 검색
KVC는 적응형 콘텐츠 특징 검색 평활화를 사용하여 RVC와 같은 표준 검색 SVC 시스템에 비해 화자 유사성이 더 높은 수준을 이끌어냅니다. 추론 동안, Kits VC는 입력 특징을 받아들이고 검색 강도를 적응적으로 적용합니다: 특징이 더 정렬될수록 콘텐츠 특징이 검색 쪽으로 끌리는 정도가 높아집니다.
이로 인해 음소 콘텐츠가 더 잘 보존되어 발음과 화자 유사성 향상으로 이어집니다.
오픈 소스: Contentvec + 최근접 이웃 검색
키트: 적응형 기능 검색
고급 콘텐츠 인코딩: 제우스, 하이브리드
오픈소스 SVC 시스템은 Hubert 또는 ContentVec 가중치를 사용합니다. KVC는 ContentVec뿐만 아니라 Xeus와 같은 고급 콘텐츠 인코더 및 하이브리드 시스템과 통합되어 있어 발음 개선으로 이어질 수 있습니다. 아래에 예시가 포함되어 있습니다.
훈련 사전 처리
지능형 슬라이싱
KVC는 더 긴, 더 완전한 구문을 교육하기 위해 더 지능적인 분할 방법을 사용하여 단어나 구문의 중간에서 잘리는 것을 피합니다.
호흡 및 소음 제거
KVC는 품질 향상을 위한 적응형 노이즈 제거를 위한 추가 단계를 포함합니다.
스펙트럼 균형을 위한 적응형 EQ
KVC는 훈련과 추론 모두에서 자동 EQ 조정을 포함하여 입력 오디오와 출력 오디오 간의 스펙트럼 균형과 동등성을 높입니다.
추론 후처리
피치 보정
자동 피치 보정은 Antares Auto-Tune과 같은 도구에서 영감을 받아 변환 중에 선택적으로 적용됩니다.
스타일적 효과
스테레오 확장 및 리버브와 같은 스타일 효과가 추론 파이프라인에 직접 내장되어 있어 노래 출력의 스타일 품질을 향상시킵니다.
오디오 예시
피치 안정성
오픈 소스 가중치가 대부분 음성 데이터에 대해 훈련되는 반면, KVC의 기본 가중치는 노래에 최적화되어 있습니다. 그 결과: 가수의 음역대에 걸쳐 (그리고 그 이상으로) 더 풍부하고 깨끗한 음을 제공합니다.
오픈 소스 (RVC)
킷츠 VC
보컬 에너지
KVC를 사용하면 입력 파일의 에너지 수준이 오픈 소스 대안보다 훨씬 더 사실적으로 재현됩니다. 볼륨 변동, 숨소리, 부드러운 음 시작이 훨씬 더 자연스러운 결과를 만듭니다.
오픈 소스 (RVC)
킷츠 VC
볼륨
적응형 전처리를 통해 KVC는 오픈 소스 RVC 변환에 흔히 발생하는 볼륨 아티팩트를 해결합니다.
오픈 소스 (RVC)
킷츠 VC
소닉 품질
신중한 EQ와 다이내믹 레인지 처리가 없으면 음성 모델이 빠르게 거칠게 들릴 수 있습니다. KVC는 훈련 데이터 세트의 볼륨과 주파수 응답을 적응형으로 균형을 맞춰 부드럽고 저왜곡 변환을 제공합니다.
오픈 소스 (RVC)
킷츠 VC
피치/보컬 프라이
피치 감지, 기능 검색 및 시간 해상도의 개선을 통해 KVC는 목소리의 프라이 및 숨쉬는 노래 스타일과 같은 미세한 억양을 개선합니다.