연구

윤리적 AI 개발

2024년 12월 9일

아나스타시아 헤루스에 의해

2023년에 Kits.AI가 출범했을 때, 음악 산업은 AI에 대한 흥분과 우려로 혼란스러웠습니다. AI로 생성된 트랙 Heart on My Sleeve (The Weeknd x Drake AI Clones)와 같은 바이럴 순간은 다음과 같은 양극화된 논의를 촉발했습니다: AI는 예술에 대한 위협인가, 아니면 강력한 새로운 도구인가?

이 게시물은 Kits.AI가 개발한 윤리적 프레임워크를 소개하여 이러한 회색 영역을 탐색하고 AI 혁신이 예술가, 개발자 및 청취자 모두에게 이익이 되도록 하는 방법을 설명합니다.

오픈 소스 (RVC)

0:00/1:34

"낡은 울타리 / 여름이 끝난 / 친구들과 함께하며 그 어느 때보다 좋았어."

0:00/1:34

“너의 목소리에는 뭔가 있다 / 네가 불쑥 불러낼 때.”

0:00/1:34

“내가 너의 소파에서 자고 있는 동안, 너는 그를 밖으로 보내는 걸 보며 깼어, 오…”

0:00/1:34

“우리는 태양과 함께 일어날 것이며, 이제 우리는 누구를 위해 살아가고 있는지를 알게 되었습니다”

0:00/1:34

“이것은 팀에게 바치는 것입니다. 당신이 없었다면 나는 무엇이었을까요”

0:00/1:34

위의 이미지는 AI 모델의 단일 레이어를 구성하는 약 20,000개의 개별 값 또는 '가중치'를 포함하고 있습니다. 이러한 매개변수 각각은 모델이 의도한 작업(음성을 변환하거나 새로운 소리를 생성하는 등)을 수행하는 능력이 향상됨에 따라 훈련 중에 수천 번 조정됩니다. 단일 모델은 종종 30-50개 이상의 레이어를 포함합니다.

그 외에도, 우리는 Kits Voice Conversion (KVC)의 모듈을 활용하여 다른 텍스트-오디오 생성 모델에 비해 높은 충실도의 음성 출력을 달성할 수 있습니다. KVC의 콘텐츠 인코더, 콘텐츠 검색 및 안정적인 피치 추출 기능을 통합함으로써, 우리는 다른 생성된 음성 출력에서 자주 나타나는 발음 아티팩트와 피치 불일치를 수정합니다.

또한, 이는 사용자가 목표 음성의 음색과 스타일을 조정할 수 있도록 합니다.

회색 지대를 항해하기

수백 명의 제작자, 아티스트, 보컬리스트와 Kits 커뮤니티에서 이야기하면서 우리는 생성적 음악 도구가 음악 작업 흐름의 맥락에서 가장 강력하다고 믿습니다. 따라서 향후 연구는 기악 트랙, 피치 곡선, MIDI 시퀀스, BPM 및 스타일 프롬프트와 같은 추가적인 음악적 조건 신호로 나아갈 것입니다. 우리는 KGV1을 창의적 작업 흐름에 직접 들어맞는 생성적 음악 지능을 향한 첫 번째 단계로 보고 있습니다.

KGV1은 곧 app.kits.ai.에서 개인 베타 버전으로 제공될 예정입니다.