윤리적 AI 개발

2024년 12월 9일

아나스타시아 헤루스에 의해

2023년에 Kits.AI가 출범했을 때, 음악 산업은 AI에 대한 흥분과 우려로 혼란스러웠습니다. AI로 생성된 트랙 Heart on My Sleeve (The Weeknd x Drake AI Clones)와 같은 바이럴 순간은 다음과 같은 양극화된 논의를 촉발했습니다: AI는 예술에 대한 위협인가, 아니면 강력한 새로운 도구인가?

이 게시물은 Kits.AI가 개발한 윤리적 프레임워크를 소개하여 이러한 회색 영역을 탐색하고 AI 혁신이 예술가, 개발자 및 청취자 모두에게 이익이 되도록 하는 방법을 설명합니다.

오픈 소스 (RVC)

0:00/1:34

"낡은 울타리 / 여름이 끝난 / 친구들과 함께하며 그 어느 때보다 좋았어."

0:00/1:34

“너의 목소리에는 뭔가 있다 / 네가 불쑥 불러낼 때.”

0:00/1:34

“내가 너의 소파에서 자고 있는 동안, 너는 그를 밖으로 보내는 걸 보며 깼어, 오…”

0:00/1:34

“우리는 태양과 함께 일어날 것이며, 이제 우리는 누구를 위해 살아가고 있는지를 알게 되었습니다”

0:00/1:34

“이것은 팀에게 바치는 것입니다. 당신이 없었다면 나는 무엇이었을까요”

0:00/1:34

위의 이미지는 AI 모델의 단일 레이어를 구성하는 약 20,000개의 개별 값 또는 '가중치'를 포함하고 있습니다. 이러한 매개변수 각각은 모델이 의도한 작업(음성을 변환하거나 새로운 소리를 생성하는 등)을 수행하는 능력이 향상됨에 따라 훈련 중에 수천 번 조정됩니다. 단일 모델은 종종 30-50개 이상의 레이어를 포함합니다.

그 외에도, 우리는 Kits Voice Conversion (KVC)의 모듈을 활용하여 다른 텍스트-오디오 생성 모델에 비해 높은 충실도의 음성 출력을 달성할 수 있습니다. KVC의 콘텐츠 인코더, 콘텐츠 검색 및 안정적인 피치 추출 기능을 통합함으로써, 우리는 다른 생성된 음성 출력에서 자주 나타나는 발음 아티팩트와 피치 불일치를 수정합니다.

또한, 이는 사용자가 목표 음성의 음색과 스타일을 조정할 수 있도록 합니다.

회색 지대를 항해하기

…

수백 명의 제작자, 아티스트, 보컬리스트와 Kits 커뮤니티에서 이야기하면서 우리는 생성적 음악 도구가 음악 작업 흐름의 맥락에서 가장 강력하다고 믿습니다. 따라서 향후 연구는 기악 트랙, 피치 곡선, MIDI 시퀀스, BPM 및 스타일 프롬프트와 같은 추가적인 음악적 조건 신호로 나아갈 것입니다. 우리는 KGV1을 창의적 작업 흐름에 직접 들어맞는 생성적 음악 지능을 향한 첫 번째 단계로 보고 있습니다.