연구

Kits Data Sourcing

품질이 들어가면 품질이 나옵니다: 키트 데이터가 전문적인 사용을 위한 AI를 어떻게 지원하는가

AI 모델의 성능은 아키텍처만큼이나 훈련 데이터의 품질에 달려 있습니다. Kits.AI에서는 전 세계 음악 산업 전문가들이 사용할 수 있도록 출시 준비가 된 AI 도구를 만들기 위해 가장 높은 품질의 데이터를 소싱하는 데 타협하지 않고 최선을 다하고 있습니다.

또한 AI 음악 도구가 고립된 환경에서 존재하지 않는다는 것을 인식하고 있습니다. 우리는 인간의 창의성에 의존하는 산업에서 활동하며, 그래서 우리의 모든 데이터는 자신의 녹음 사용으로 재정적 이익을 얻는 아티스트로부터 직접 라이센스가 부여된 것입니다.

이 기사는 세심한 데이터 관리 관행이 고품질의 윤리적 AI의 기반을 제공하는 여러 가지 방법을 보여줍니다.

출시 준비 완료된 로열티 없는 목소리

키츠 로열티 프리 라이브러리는 전 세계의 수백만 음악 제작자들이 상업적이고 로열티 프리 라이센스와 함께 사용할 수 있는 스튜디오 품질의 음성 클론을 제공합니다. 공기 같은 팔세토부터 프라이드 록 톤까지, 이 보컬 팔레트는 제작자들에게 무한한 창작 선택을 제공합니다.

몇 가지 예를 들어보세요:

남성 밝은 팝

0:00/1:34

여성 따뜻한 팝

0:00/1:34

여성 매끄러운 바위

0:00/1:34

라이브러리의 각 목소리는 자신의 훈련 데이터 사용에 대한 보상을 받는 아티스트로부터 직접 제공됩니다. AI가 그들의 경력에 맞춰 빠르게 변화하는 방식에 대한 존중을 위해, 이 아티스트들은 언제든지 선택 해제할 수 있는 옵션이 있습니다. 우리의 훈련 데이터, 데이터 소싱 및 데이터 관리 관행은 공정하게 훈련되었다고 인증받았습니다.

오픈 소스 vs. 키트 데이터

오픈 소스 데이터는 텍스트 음성 변환 및 음성 변환 분야에서 많은 의미 있는 프로젝트를 지원하지만, 한계가 있습니다. 키트 데이터는 다음 품질 기준을 준수하도록 선별되고 처리됩니다:

시끄러운 피크와 NOISE가 있는 오픈 소스 데이터.

일관된 볼륨과 잡음 없는 킷 데이터.

일관성:

모든 키트 데이터는 주파수 반응, 피크 및 평균 음량 수준, 위상 회전, 샘플링 속도 등을 유지하기 위해 전문 오디오 엔지니어에 의해 수동으로 처리됩니다. 오픈 소스 데이터 세트와 함께 이러한 영역의 불일치는 모델 품질을 제한하는 바람직하지 않은 변화를 추가할 수 있습니다.

신호 대 잡음 비율:

마이크 품질에서 음향 처리에 이르기까지 Kits는 훈련 데이터에서 원치 않는 소음을 방지하기 위한 세부 지침을 정의합니다. 훈련 데이터에서 일관되게 낮은 소음 바닥은 더 효과적인 음성 복제와 깨끗한 변환을 가져옵니다.

청결:

스템 분할 기술은 놀라울 정도로 좋아졌습니다. 그러나 노래에서 추출된 음성 데이터는 여전히 리버브, 하모니, 악기 간섭 또는 기타 스템 분할 아티팩트를 가질 가능성이 높습니다.

킷 데이터는 마이크에서 직접 수집되어 보장된 깨끗하고 모노포닉한 녹음을 제공합니다.

후처리

보컬 엔지니어링 자체가 하나의 예술입니다. 저희 내부 엔지니어들은 각 데이터 세트를 면밀하게 처리하여 완벽한 스타일링 마무리를 적용합니다. 완벽하게 압축된 자음과 맑고 공명하는 모음이 Kits 음성을 다재다능하고 출시 준비가 완료된 상태로 만듭니다.

사전 훈련된 가중치

당신이 Kits.AI로 목소리를 복제할 때, 당신은 그 목소리의 모든 뉘앙스, 표현력 및 자연스러운 소리를 포착하는 것입니다.

하지만 당신의 목소리 복제는 제로에서 시작하지 않습니다. 대신, 일반적인 목소리의 음색을 이해하는 스타터 모델(또는 “사전 훈련된 가중치”)로 시작합니다. 좋은 출발점은 훈련 시간을 극적으로 단축하고 목소리 복제를 위한 품질 기준을 제공합니다.

노래 데이터에 대한 노출이 부족한 오픈 소스 사전 훈련된 가중치와 달리, Kits 모델은 다양한 보컬 스타일과 기법을 포Cover하는 손편집된 노래 데이터에 대해 사전 훈련되어 있습니다. 오픈 소스 사전 훈련된 가중치를 사용하는 목소리 복제와 Kits로 훈련된 목소리 복제의 몇 가지 비교를 들어보세요.

오픈 소스 사전 훈련 모델 (VCTK)

0:00/1:34

사전 훈련된 키트

0:00/1:34

오픈 소스 가중치는 주로 음성 데이터에 대해 훈련되는 반면, Kits의 사전 훈련된 가중치는 노래에 최적화되어 있습니다. 그 결과: 가수의 음역대 전반에 걸쳐(그리고 그 너머까지) 더욱 풍부하고 선명한 음이 만들어집니다.

오픈 소스 사전 훈련 모델 (VCTK)

0:00/1:34

사전 훈련된 키트

0:00/1:34

킷을 사용하면, 오픈 소스 미리 학습된 가중치로는 재현하기 어려운 보컬 퍼포먼스의 뉘앙스가 훨씬 더 현실적으로 재현됩니다.

윤리적 AI에 대한 헌신

우리는 다음 세대 음악 프로듀서를 권한을 부여하는 것이 이를 가능하게 하는 아티스트의 목소리를 권한을 부여하는 것으로 시작된다고 믿습니다. 그렇기 때문에 Kits.AI 연구는 아티스트들로부터 직접 수집한 라이선스가 있는 훈련 데이터만을 사용합니다.

우리의 로열티 프리 음성 및 악기 모델은 공정하게 훈련되었음을 인증받았으며, 이는 소싱부터 관리까지 데이터 파이프라인의 모든 부분이 공정성을 위해 검토되었음을 의미합니다. 이것은 단순한 배지가 아니라 우리가 활동하는 창작 산업에 기여하겠다는 약속입니다.

Kits.AI에서는 AI 기술 이상의 것을 만들고 있습니다; 우리는 산업의 새로운 기준을 설정하는 윤리적이고 고품질의 음악 제작 도구를 위한 기초를 만들고 있습니다. 우리는 계속해서 음성 라이브러리를 확장하고 모델을 다듬어 가는 동안, 품질, 투명성, 혁신에 대한 헌신을 유지하며 프로듀서들이 신뢰할 수 있는 도구를 사용할 수 있도록 권한을 부여합니다.