एआई गायक आवाज प्रशिक्षण और अनुकूलन
द्वारा लिखा गया
प्रकाशित किया गया
6 नवंबर 2024
किट्स में मेरी मुख्य भूमिकाओं में से एक यह सुनिश्चि करना है कि हमारे रॉयल्टी-फ्री मॉडल मजबूत, प्रेरणादायक डेटा सेट के साथ प्रशिक्षित हैं जो न केवल अच्छे लगते हैं, बल्कि उनके साथ काम करना प्रेरणादायक होता है। इस प्रक्रिया के कुछ भाग शुद्ध तकनीकी होते हैं, जबकि अन्य उन रचनात्मक विकल्पों की ओर झुकते हैं जो मॉडल के चरित्र को आकार देते हैं। आज, मैं इस बारे में बता रहा हूँ कि अपने प्रशिक्षण डेटा को कैसे अनुकूलित करना है और अपनी आवाज के मॉडलों में अद्वितीय व्यक्तित्व जोड़ने के लिए कुछ इरादतन रचनात्मक निर्णय कैसे लेना है।
पिछले कुछ हफ्तों में, मेरे लेखों ने हमारे अधिक चरित्र-आधारित आवाज़ों को बनाने की प्रक्रिया को कवर किया है और मैं जिन अद्वितीय तकनीकों का उपयोग करता हूँ। चाहे यह मेरे मेल ओवरड्राइव रॉक मॉडल के लिए गिटार एंप के माध्यम से गाना हो या विन्टेज फीमेल जैज़ के लिए अपने स्टूडियो मॉनिटर में से एक को पकड़ने के लिए रिबन माइक्रफोन का उपयोग करना हो, standout डेटा सेट बनाने के तरीके वास्तव में अंतहीन हैं।
आधार
किसी भी आवाज़ मॉडल बनाने का सबसे महत्वपूर्ण भाग एक ठोस आधार है। किसी भी विशेष विशेषताओं को जोड़ने के बावजूद, मैं हमेशा एक साफ वोकल कैप्चर के साथ शुरू करता हूँ। इसका मतलब है बैकग्राउंड शोर को हटाना - एयर कंडीशनर, फ्रिज की गुनगुनाहट, जो भी lurking है - जो आपके मॉडल की आवाज़ को कम कर सकता है और आगे चलकर समस्याएँ पैदा कर सकता है। मान लीजिए कि आपने एक शानदार 30-मिनट का डेटा सेट रिकॉर्ड किया, लेकिन पुनरावृत्ति (playback) के समय, आप सुनते हैं कि एक कम गुनगुन है जो कमरे में मुश्किल से ध्यान देने योग्य था। वहाँ रहे हैं! मैं एक टेक में खो गया हूँ, केवल बाद में पाया कि एंप बेतहाशा buzzing कर रहा है या पृष्ठभूमि में हीटर चालू है। अगर आप उच्च गुणवत्ता वाले वोकल्स रिकॉर्ड करने के लिए शुरुआत कर रहे हैं, तो हमारे गाइड को देखें।
iZotope RX जैसा टूल लगातार गुनगुनाहट और buzzing को ठीक करना आसान बनाता है। बस RX के स्पेक्ट्रल डीनोइज़ मॉड्यूल को खोलें, अपने ऑडियो के एक सेक्शन का चयन करें जिसमें केवल बैकग्राउंड शोर हो, "सीखें" (Learn) पर क्लिक करें, और ऑडियो चलाएँ। RX इसका विश्लेषण करेगा और स्वचालित रूप से अपनी शोर कमी को समायोजित करेगा। आप इसे और अधिक विस्तार से समायोजित करने के लिए थ्रेशोल्ड और रिडक्शन फ़ेडर्स को समायोजित करना चाह सकते हैं, लेकिन RX उन परेशान करने वाले आर्टिफेक्ट्स को हटाने को आसान बनाता है।

गेन स्तर का महत्व
एक उचित गेन स्तर स्थापित करना भी कुंजी है। मॉडल बनाते समय, मैं एक स्थिर -12dB स्तर का लक्ष्य रखता हूं, जिसमें चोटियाँ -6dB से अधिक नहीं होनी चाहिए। इससे ऑडियो गतिशील रहता है जबकि मशीन लर्निंग को प्रभावी रूप से प्रशिक्षित करने के लिए आदर्श मात्रा मिलती है। मैं अक्सर ऐसे सबमिशन देखता हूं जो या तो मात्रा में बहुत कम होते हैं या लाल रंग में क्लिपिंग कर रहे होते हैं। डिजिटल क्लिपिंग आपको वह सुखद संतृप्ति नहीं देती जो आप एक रॉक वोकल में चाह सकते हैं - यह बस कठोर है, और मशीन लर्निंग एल्गोरिदम भी इसके प्रशंसक नहीं होते हैं।

चरित्र बनाना
हालांकि एक साफ, ठोस डेटा सेट आमतौर पर सबसे अच्छा आधार होता है, आपको अपने DAW में आयात करने के बाद चीजों को बदलने की अनुमति देने के लिए, कभी-कभी अपने प्रशिक्षण डेटा में सीधे कुछ चरित्र डालना मजेदार होता है। कोई भी ध्वनि जिसे आप एक प्रभाव के साथ अपलोड करते हैं, स्वचालित रूप से आपके मॉडल में उस गुणवत्ता को ले जाएगी - बाद में कोई DAW जादू की आवश्यकता नहीं है। यह सामग्री निर्माताओं के लिए एक विशिष्ट वोकल वाइब तक पहुँच प्राप्त करने के लिए परफेक्ट हो सकता है, जैसे एक रेडियो या वॉकी-टॉकी प्रभाव जो उच्च-मध्य आवृत्तियों पर जोर देता है और थोड़ी सी ग्रिट जोड़ता है। इसे अपने पूरे डेटा सेट पर लागू करें, और आपके पास एक ऐसा मॉडल है जो तुरंत ऐसा लगता है कि यह एक रेडियो से आ रहा है।

या शायद पुराने डिस्टॉर्शन पेडल को कोने से निकालने का समय है! अपने डेटा सेट को इसके माध्यम से चलाना एक नया स्तर के वोकल चरित्र को जोड़ सकता है।

मैं अक्सर वोकल्स को गिटार एंप के माध्यम से चलाना पसंद करता हूँ - ओवरड्राइव को क्रैंक करना और इसे स्वाद के अनुसार समायोजित करना। क्यों न अपने मार्शल हाफ-स्टैक के माध्यम से जोर से चलाएँ और देखें कि आपके पड़ोसियों को पुलिस बुलाने में कितना समय लगता है!

हालांकि शायद आप शोर की शिकायत से बचना चाहें और इनमें से किसी एक छोटी बैटरी-चालित मार्शल को आजमाएँ। (साइड नोट: ये छोटे एंप स्टूडियो का सोना हैं - इन्हें ना छोड़ें!)

एक और तरकीब? एक वाह पैडल। कुछ बिंदुओं पर एक वाह को "कॉक" रखना एक विस्तृत श्रृंखला के फ़िल्टर प्रभावों का उत्पादन कर सकता है। यहाँ कोई फैंसी करने की आवश्यकता नहीं है; एक मानक डनलॉप क्राइबेबी महान काम करता है।

और बिना रील-टू-रील टेप डेक के प्रामाणिक लो-फाई वाइब के लिए, एक कैसेट रिकॉर्डर का प्रयास करें। यह एक भीतरी माइक्रोफ़ोन और USB 2.0 पोर्ट के साथ आता है। अपने स्पीकर से कैसेट पर रिकॉर्ड करने के लिए अंतर्निहित माइक्रोफोन का उपयोग करने से एक खूबसूरती से बिगड़ा हुआ, गर्म ध्वनि उत्पन्न कर सकता है। मुझे शायद इनमें से एक लेना होगा - प्रयोग करने के लिए बिल्कुल सही!

निष्कर्ष
दिन के अंत में, संगीत बनाना मज़ेदार होना चाहिए, और मेरे लिए इसका मतलब सीमाओं को धकेलना और नई ध्वनियों को खोजना है। चिंता न करें यदि आपका पहली बार अपलोड का प्रयास इस तरह से नहीं हुआ जैसा आप चाहते थे - हर टेक प्रक्रिया का एक हिस्सा है, जो आपके अगले कदम को सूचित करता है। Kits.AI यहाँ कुछ प्रेरणादायक और अद्वितीय बनाने में आपकी मदद करने के लिए है। तो आगे बढ़ें - आसमान ही सीमा है!
-एसके
सैम कियरनी एक निर्माता, संगीतकार और ध्वनि डिज़ाइनर है जो एवरग्रीन, कोलोराडो में स्थित है।