एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ

द्वारा लिखा गया
किट्स टीम
प्रकाशित किया गया
23 अगस्त 2024
परिचय
आर्टिफिशियल इंटेलिजेंस (कृत्रिम बुद्धिमत्ता) में प्रगति के कारण, अपने संगीत में AI वोकल्स को शामिल करना संगीतकारों और निर्माताओं के लिए एक रोमांचक और अभिनव उपकरण है। किसी भी नई तकनीक की तरह, सर्वोत्तम परिणाम प्राप्त करने के लिए इसमें कुछ बारीक सुधारों (फाइन-ट्यूनिंग) की आवश्यकता होती है। Kits में, हम सटीक और यथार्थवादी AI वोकल मॉडल प्रशिक्षण के लिए आदर्श सेटअप बनाने के लिए डेटा सेट को प्रोसेस करते हैं। समय के साथ, मैंने कुछ ऐसी सामान्य गलतियों पर ध्यान दिया है जो AI-जनरेटेड वोकल्स के प्रदर्शन में बाधा डाल सकती हैं। इस लेख में, मैं इन कमियों को उजागर करूँगा और आपके AI वोकल मॉडल को बेहतर बनाने के टिप्स दूंगा।

लेवल और डायनामिक्स
मानव आवाज़ एक फिंगरप्रिंट की तरह अद्वितीय होती है, जिसका अपना एक विशेष स्वर (टिम्ब्रे) और भावनात्मक उतार-चढ़ाव होता है। गायन आमतौर पर भावनात्मक अभिव्यक्ति का एक प्रखर रूप है और स्वाभाविक रूप से इसकी तीव्रता (लाउडनेस) में उतार-चढ़ाव हो सकता है। जब वोकल्स रिकॉर्ड किए जा रहे हों, तो इन उतार-चढ़ावों को अक्सर माइक तकनीकों और कम्प्रेसर का उपयोग करके प्रबंधित किया जाता है। अनुभवी सेशन सिंगर ऊंचे स्वरों (लाउड सेक्शन) के दौरान माइक से दूरी को समायोजित करके खुद को "सेल्फ-कम्प्रेस" कर सकते हैं। हालाँकि, इस तकनीक के साथ भी, आमतौर पर एक संतुलित मिक्स बनाए रखने के लिए अतिरिक्त कम्प्रेशन की आवश्यकता होती है।
जिस तरह गानों को नेचुरल कम्प्रेशन से फायदा होता है, उसी तरह यह AI वोकल मॉडल के लिए ट्रेनिंग की प्रक्रिया को भी बेहतर बनाता है। Kits AI में, हमने पाया है कि जब प्रोसेसिंग के लिए एडवांस सॉफ्टवेयर का उपयोग किया जाता है, तो नियंत्रित डायनामिक रेंज वाले वोकल ट्रैक वोकल क्लोनिंग के मामले में बेहतर परिणाम देते हैं। ट्रेनिंग के लिए वोकल तैयार करने की मेरी व्यक्तिगत तकनीक यह है कि मैं ट्रैक को अपने DAW में इम्पोर्ट करता हूँ, और किसी भी अतिरिक्त कम्प्रेशन को लागू करने से पहले कुछ अधिक तीव्र वर्गों को समतल (लेवल) करने के लिए क्लिप गेन का उपयोग करता हूँ। यह सुनिश्चित करता है कि कम्प्रेसर अप्राकृतिक आवाज़ें पैदा किए बिना कुशलता से काम करे।
नीचे दी गई छवि में, शीर्ष ट्रैक मूल डेटा सेट दिखाता है, जबकि निचला ट्रैक मेरे द्वारा किए गए लेवलिंग एडजस्टमेंट को दर्शाता है:

इस दृष्टिकोण का उपयोग करके, केवल थोड़े से कम्प्रेशन की आवश्यकता होती है। मैं 3-5 dB से अधिक गेन रिडक्शन (gain reduction) की अनुशंसा नहीं करता हूँ।
सर्वोत्तम परिणामों के लिए, -12 dB के औसत वॉल्यूम स्तर का लक्ष्य रखें, जिसमें पीक -6 dB से अधिक न हो। यह मशीन लर्निंग के लिए एक बेहतरीन आधार प्रदान करता है और अधिक यथार्थवादी AI वॉइस मॉडल बनाता है।
तेज सिबिलेंस (Sibilance) को कम करने के लिए De-ess करें
वोकल्स रिकॉर्डिंग में "s," "t," और "z" जैसे व्यंजनों के कारण होने वाली तेज सिबिलेंस (तीखी आवाज़ें) ध्यान भटकाने वाली और अप्रिय हो सकती हैं। इन तीखे स्वरों को नियंत्रित करने के लिए FabFilter का Pro-DS जैसा डी-एस्सर आवश्यक है। यह सुनिश्चित करता है कि आपका AI वॉइस मॉडल इन तीखे तत्वों को दोहराने के लिए प्रशिक्षित न हो, जिससे अधिक सहज और प्रोफेशनल आउटपुट मिलता है।

EQ: स्पेक्ट्रम को संतुलित करना
इक्वलाइजेशन (EQ) वोकल रिकॉर्डिंग की आवाज़ को आकार देने में महत्वपूर्ण भूमिका निभाता है। हालांकि विशिष्ट EQ सेटिंग्स संगीतमय सामग्री के आधार पर भिन्न हो सकती हैं, एक अच्छी तरह से संतुलित EQ आपके AI वॉइस क्लोन की गुणवत्ता में काफी सुधार कर सकता है और आपके AI वॉइस मॉडल के लिए एक बेहतरीन शुरुआती बिंदु प्रदान कर सकता है, चाहे वह किसी भी संदर्भ और शैली में हो।
किसी भी अनावश्यक लो-एंड फ्रीक्वेंसी को हटाने के लिए हाई-पास फ़िल्टर से शुरुआत करें जो वोकल टोन में योगदान नहीं करती हैं। हालाँकि, 100 Hz से ऊपर जाते समय सावधानी बरतें, क्योंकि यह वोकल टोन के महत्वपूर्ण तत्वों को हटा सकता है।
स्पेक्ट्रम के दूसरे छोर पर, किसी भी तीखी हाई-एंड फ्रीक्वेंसी के प्रति सचेत रहें जो बजट-अनुकूल माइक्रोफ़ोन द्वारा उत्पन्न हो सकती हैं। हर किसी के पास गाने के लिए विंटेज Neumann माइक नहीं होता (मुझ सहित)। लो-पास फ़िल्टर इन फ्रीक्वेंसी को नियंत्रित करने में मदद कर सकता है, आमतौर पर लगभग 20 kHz और उससे अधिक पर।
Pultec EQP-1A जैसे EQ का उपयोग करना, जो अपने सहज और वार्म कैरेक्टर के लिए जाना जाता है, लो-एंड रंबल को साफ करने और हाई नोट्स को नरम करने के लिए एक बेहतरीन विकल्प है।

पिच सुधार (Pitch Correction): कब और कैसे उपयोग करें
आधुनिक संगीत निर्माण में पिच सुधार उपकरणों का उपयोग अक्सर एक प्रभाव (इफेक्ट) के रूप में किया जाता है। हालाँकि, जब AI वॉइस मॉडल को प्रशिक्षित कर रहे हों, तो मैं वोकल्स को प्राकृतिक रखने और वोकल क्लोन होने के बाद पिच सुधार को लागू करने की सलाह देता हूँ। यह दृष्टिकोण आपके AI मॉडल की यथार्थवादता को बनाए रखता है और भविष्य की परियोजनाओं के लिए लचीलापन प्रदान करता है जिन्हें अधिक प्राकृतिक आवाज़ की आवश्यकता हो सकती है।
वोकल विविधता: अपनी स्रोत सामग्री का विस्तार करें
AI वोकल ट्रेनिंग में सबसे आम गलतियों में से एक वोकल डेटासेट में विविधता की कमी है। मशीन लर्निंग मॉडल केवल प्रदान की गई सामग्री से ही सीख सकते हैं, इसलिए सीमित डेटासेट के परिणामस्वरूप एक सीमित वोकल मॉडल ही बनता है। विस्तार से कहें तो, मुझे ऐसे सबमिशन मिले हैं जिनमें गायक बार-बार एक ही गाना गा रहे हैं। हालाँकि वे उस एक गाने पर बहुत अच्छे लग सकते हैं, लेकिन मुझे पता है कि वे उच्च और निम्न पिचों तक पहुँचने में सक्षम हैं, अधिक तीव्र और नरम वोकल उतार-चढ़ाव व्यक्त कर सकते हैं, जिनमें से कोई भी उनके वोकल मॉडल में शामिल नहीं होगा क्योंकि मशीन लर्निंग के पास इस अतिरिक्त जानकारी तक पहुंच नहीं है। नतीजतन, यह AI वॉइस मॉडल के उपयोग को बेहद सीमित कर देगा।
सक्षम और विविध AI आवाजें बनाने के लिए, अपनी प्रशिक्षण सामग्री में वोकल परफॉरमेंस की एक विस्तृत श्रृंखला शामिल करें। इसमें वास्तविक आर्टिस्ट की बहुमुखी प्रतिभा की नकल करने के लिए विभिन्न पिच, भावनात्मक अभिव्यक्तियां और वोकल तकनीकें शामिल होनी चाहिए, जिसमें चेस्ट और फाल्सेटो दोनों आवाजें शामिल हैं। हालांकि न्यूनतम आवश्यकता 15 मिनट के ऑडियो की है, मैं गायक की क्षमताओं को पूरी तरह से कैप्चर करने के लिए पूरे 30 मिनट का उपयोग करने की सलाह देता हूं।

खाली स्थान (साइलेंस) हटाएं
वोकल सबमिशन अक्सर गानों के उनके संपूर्ण रूप में एकापेला (acapella) संस्करण होते हैं। चूंकि मशीन लर्निंग प्रक्रिया केवल वोकल परफॉरमेंस का विश्लेषण करने पर ध्यान केंद्रित करती है, इसलिए लंबे खाली स्थान, जो कि एक पूर्ण गाने के इंस्ट्रुमेंटल सेक्शन हो सकते हैं, अनावश्यक हैं और डेटासेट में मूल्यवान समय लेते हैं। अपने AI वॉइस मॉडल को बेहतर बनाने के लिए, किसी भी गैर-वोकल सेक्शन को हटा दें और सुनिश्चित करें कि ऑडियो निरंतर है, जैसा कि ऊपर मेरे शुरुआती उदाहरण में दिखाया गया है। इस दृष्टिकोण का उपयोग करने से ट्रेनिंग डेटा अधिकतम होगा और आपके मॉडल को यथासंभव यथार्थवाद बनाए रखने में मदद मिलेगी।
अपने ऑडियो को ट्रू मोनो (True Mono) के रूप में एक्सपोर्ट करें
अंत में, हमेशा अपने वोकल स्टेम्स (vocal stems) को ट्रू मोनो ट्रैक्स के रूप में एक्सपोर्ट करें। स्टीरियो ट्रैक सबमिट करने से, भले ही रिकॉर्डिंग मोनो में थी, डेटा दोगुना हो जाता है और ट्रेनिंग के लिए उपयोगी सामग्री की मात्रा कम हो जाती है। सर्वोत्तम वॉइस क्लोनिंग परिणाम प्राप्त करने के लिए, Kits.AI पर अपलोड करने से पहले अपने वोकल ट्रैक को मोनो में बदलकर उस सामग्री की मात्रा को अधिकतम करें जिस पर आपका मॉडल प्रशिक्षित किया जा सकता है।
निष्कर्ष
इन युक्तियों का पालन करके, आप सामान्य AI वोकल गलतियों से बच सकते हैं और इस शक्तिशाली उपकरण की पूरी क्षमता का लाभ उठाना शुरू कर सकते हैं। याद रखें, AI कोई रचनात्मक उपकरण नहीं है, यह निर्माता का उपकरण है। सभी नए उपकरणों और उभरती हुई तकनीक की तरह, इसमें भी सीखने की प्रक्रिया (लर्निंग कर्व) होती है, लेकिन सही दृष्टिकोण के साथ, अपने संगीत में AI वोकल्स को शामिल करने से नई संभावनाएं खुल सकती हैं जो कभी अकल्पनीय थीं।
शुरू करें, मुफ्त।
अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं
