मूल्य निर्धारण

डेस्कटॉप ऍप

अनुसंधान

ब्लॉग

Select Language

लॉग इन करें

शुरू हो जाओ

Get Started

अनुसंधान

शून्य-शॉट गायक आवाज़ रूपांतरण का परिचय

9 दिसंबर, 2024

अनास्तासिया हेरस द्वारा

हमारे संगीत निर्माताओं के लिए सबसे शक्तिशाली उपकरण प्रदान करने के मिशन में, Kits.AI रिसर्च टीम ने दुनिया के पहले Zero-Shot सिंगिंग वॉयस कन्वर्शन (ZS-SVC) मॉडल में से एक विकसित किया है। यह मॉडल ऑडियो को लक्षित गायक की आवाज़ में बदलने की अनुमति देता है बिना प्रशिक्षण की आवश्यकता के।

इनपुट

0:00/1:34

लक्ष्य गायक संदर्भ

0:00/1:34

आउटपुट

0:00/1:34

आर्किटेक्चर और डेटा

ज़ीरो-शॉट मॉडल आर्किटेक्चर KVC आर्किटेक्चर, के कई मुख्य घटकों को विरासत में लेता है, जिसमें सामग्री एन्कोडिंग, पिच एन्कोडिंग और पुनःप्राप्ति शामिल हैं। मुख्य जोड़ एक गायक एन्कोडर मॉड्यूल है, जो संदर्भ फ़ाइल से एक गायक एम्बेडिंग की गणना करता है। गायक एम्बेडिंग लक्षित गायक के वोकल्स का एक अलग प्रतिनिधित्व है जिसका उपयोग फिर रूपांतरण के लिए किया जा सकता है।

उच्चारण संबंधी पुनर्प्राप्ति के लिए लहजे का संरक्षण

संदर्भ वक्ता की ध्वनि विशेषताएँ संरक्षित करने के अलावा, ZS-SVC मॉडल एक ध्वन्यात्मक पुनःप्राप्ति प्रणाली का भी उपयोग करता है। KVC में पुनःप्राप्ति के समान, यह लक्षित वक्ता के उच्चारण को बनाए रखने में मदद करता है, बिना अधिक सुधार किए और उच्चारण त्रुटियों का कारण बने।

डेटा

डेटा की गुणवत्ता को मात्रा पर प्राथमिकता देना जीरो-शॉट गाने के परिणामों पर अत्यधिक प्रभाव डालता है। ZS-SVC मॉडल किट्स के लाइसेंस प्राप्त स्टूडियो में रिकॉर्ड किए गए वोकल डेटासेट पर प्रशिक्षित किया गया था। सभी डेटा कलाकारों से सीधे लाइसेंस प्राप्त हैं और ऑडियो इंजीनियरों द्वारा मैन्युअल रूप से पूर्व-संसाधित किए गए हैं ताकि रिलीज स्तर की गुणवत्ता प्राप्त हो सके।

आगे देखते हुए

ZS-SVC हमारे नए इंस्टेंट वॉयस क्लोनिंग (IVC) फीचर को शक्ति देता है, जो वर्तमान में किट्स बीटा उपयोगकर्ताओं के लिए उपलब्ध है। समय के साथ, ZS-SVC का उपयोग करके अधिक फीचर्स व्यापक किट्स समुदाय के लिए उपलब्ध हो जाएंगे।

हम देखना चाहते हैं कि संगीत निर्माता इस नए मॉडल का उपयोग अपने रचनात्मक प्रक्रिया को शक्ति देने के लिए कैसे करते हैं!

विशेषताएँ

विशेषताएँ

मूल्य निर्धारण

डेस्कटॉप ऍप

अनुसंधान

ब्लॉग

लॉग इन करें

शून्य-शॉट गायक आवाज़ रूपांतरण का परिचय

इनपुट

लक्ष्य गायक संदर्भ

आउटपुट

आर्किटेक्चर और डेटा

उच्चारण संबंधी पुनर्प्राप्ति के लिए लहजे का संरक्षण

डेटा

आगे देखते हुए

उत्पाद

विशेषताएँ

कानूनी

संसाधन