एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ
द्वारा लिखा गया
प्रकाशित किया गया
23 अगस्त 2024
परिचय
आपके संगीत में AI वोकल्स को शामिल करना संगीतकारों और उत्पादकों के लिए एक रोमांचक और अभिनव उपकरण है, जो कृत्रिम बुद्धिमत्ता में प्रगति के लिए धन्यवाद है। किसी भी नई तकनीक की तरह, इसे सर्वोत्तम परिणाम प्राप्त करने के लिए कुछ ट्यूनिंग की आवश्यकता होती है। किट्स में, हम डेटा सेट को प्रसंस्करण करते हैं ताकि वास्तविक और सटीक AI वोकल मॉडल प्रशिक्षण के लिए आदर्श सेटअप बनाए जा सकें। समय के साथ, मैंने सामान्य गलतियों पर ध्यान दिया है जो AI-जनित वोकल्स के प्रदर्शन को बाधित कर सकती हैं। इस लेख में, मैं इन pitfalls को उजागर करूँगा और आपके AI वोकल मॉडलों को अनुकूलित करने के लिए सुझाव दूँगा।
स्तर और गतिशीलता
मानव स्वर अद्वितीय है, जैसे एक उँगली के निशान, इसकी अपनी टिंबर और भावनात्मक बारीकियों के साथ। गाना आमतौर पर भावनात्मक अभिव्यक्ति का एक उच्च रूप है और स्वाभाविक रूप से लाउडनेस में भिन्न हो सकता है। जब वोकल्स रिकॉर्ड करते हैं, तो इन भिन्नताओं को बहुधा माइक्रोफोन तकनीकों और कंप्रेसरों का उपयोग करके प्रबंधित किया जाता है। अनुभवी सत्र गायक जोरदार हिस्सों के दौरान माइक्रोफोन से अपनी दूरी समायोजित करके "सेल्फ-कंप्रेस" कर सकते हैं। हालाँकि, यहां तक कि इस तकनीक के साथ भी, आमतौर पर संतुलित मिक्स बनाए रखने के लिए अतिरिक्त कंप्रेशन की आवश्यकता होती है।
जैसे प्राकृतिक कंप्रेशन गानों को लाभ पहुँचाता है, यह AI वोकल मॉडलों के प्रशिक्षण प्रक्रिया को भी बढ़ाता है। किट्स एआई में, हमने पाया है कि नियंत्रणित गतिशील रेंज वाले वोकल ट्रैक्स, विशेष रूप से प्रोसेसिंग के लिए उन्नत सॉफ़्टवेयर का उपयोग करते समय, वोकल क्लोनिंग के परिणाम बेहतर उत्पन्न करते हैं। मेरे व्यक्तिगत तकनीक में वोकल को प्रशिक्षण के लिए तैयार करना है कि मैं ट्रैक को मेरे DAW में आयात करूँ, और कुछ चरम हिस्सों को लेवल करने के लिए क्लिप गेन का उपयोग करूँ, इससे पहले कि कोई अतिरिक्त कंप्रेशन लागू करूँ। यह सुनिश्चित करता है कि कंप्रेसर बिना अप्राकृतिक ध्वनियों को पेश किए प्रभावी ढंग से काम करे।
नीचे चित्र में, शीर्ष ट्रैक मूल डेटा सेट को दिखाता है, जबकि निचला ट्रैक मेरे स्तर समायोजनों को दर्शाता है:
इस दृष्टिकोण का उपयोग करके, केवल हल्की कंप्रेशन की आवश्यकता होती है। मैं 3-5 dB से अधिक गेन में कमी की सिफारिश नहीं करता।
सर्वश्रेष्ठ परिणामों के लिए, -12 dB की औसत ध्वनि स्तर और -6 dB से अधिक के पीक का लक्ष्य रखें। यह मशीन लर्निंग के लिए एक शानदार नींव प्रदान करता है और अधिक वास्तविक AI वॉयस मॉडेल्स बनाता है।
कठोर सिबिलेंस को कम करने के लिए डि-एस
कठोर सिबिलेंस, जो 's', 't', और 'z' जैसे व्यंजनियों के कारण होती है, वोकल रिकॉर्डिंग में ध्यान भंग कर सकती है और अप्रिय हो सकती है। FabFilter का Pro-DS जैसे डि-एसर्स इन उज्ज्वल ध्वनियों को नियंत्रित करने के लिए आवश्यक हैं। यह सुनिश्चित करता है कि आपका AI वॉयस मॉडल इन कठोर तत्वों को दोहराने के लिए प्रशिक्षित न हो, जिससे एक नरम और पेशेवर आउटपुट प्राप्त होता है।
ईक्यू: स्पेक्ट्रम का संतुलन
इक्वलाइजेशन (ईक्यू) एक वोकल रिकॉर्डिंग की ध्वनि को आकार देने में महत्वपूर्ण भूमिका निभाता है। जबकि विशिष्ट ईक्यू सेटिंग्स संगीत सामग्री के आधार पर भिन्न हो सकती हैं, एक संतुलित ईक्यू आपके AI वॉयस क्लोन की गुणवत्ता को महत्वपूर्ण रूप से सुधार सकता है और आपके AI वॉयस मॉडल के लिए किसी भी संदर्भ और शैली के लिए शानदार प्रारंभिक बिंदु प्रदान कर सकता है।
एक उच्च-पास फ़िल्टर का उपयोग करके किसी भी अनावश्यक निम्न आवृत्तियों को निकाल दें जो वोकल टोन में योगदान नहीं करते हैं। हालाँकि, 100 Hz से ऊपर जाने में सावधानी बरतें, क्योंकि इससे स्वर की महत्वपूर्ण तत्वों को खतम किया जा सकता है।
स्पेक्ट्रम के दूसरी ओर, किसी भी कठोर उच्च आवृत्तियों पर ध्यान दें जो कई अधिक किफायती माइक्रोफोन्स द्वारा पेश किए जा सकते हैं। हर किसी के पास एक प्राचीन Neumann नहीं होता (मेरे सहित)। एक निम्न-पास फ़िल्टर इन आवृत्तियों को शांत करने में मदद कर सकता है, आमतौर पर 20 kHz और उससे ऊपर।
एक ईक्यू जैसे Pultec EQP-1A, जो अपनी मुलायम और गर्म चरित्र के लिए जाना जाता है, निम्न आवृत्ति की गड़बड़ी को साफ करने और ऊँचाई को नरम करने के लिए एक बेहतरीन विकल्प है।
पिच सुधार: कब और कैसे उपयोग करें
पिच सुधार उपकरण, जैसे कि Antares Auto-Tune का मुफ्त संस्करण, आधुनिक संगीत उत्पादन में अक्सर एक प्रभाव के रूप में उपयोग किए जाते हैं। हालाँकि, जब AI वॉयस मॉडल को प्रशिक्षित करते हैं, तो मैं वोकल्स को प्राकृतिक बनाए रखने और पिच सुधार लागू करने की सिफारिश करता हूँ, जब वोकल पहले ही क्लोन किया जा चुका हो। यह दृष्टिकोण आपके AI मॉडल की यथार्थवाद को बनाए रखता है और भविष्य की परियोजनाओं के लिए लचीलापन प्रदान करता है जो अधिक प्राकृतिक ध्वनि की मांग कर सकती हैं।
वोकल विविधता: अपने स्रोत सामग्री का विस्तार करें
AI वोकल प्रशिक्षण में सबसे आम गलतियों में से एक वोकल डेटा सेट में विविधता की कमी है। मशीन लर्निंग मॉडल केवल प्रदान की गई सामग्री से प्रशिक्षित हो सकते हैं, इसलिए एक सीमित डेटा सेट एक सीमित वोकल मॉडल का परिणाम देता है। विस्तार से, मैंने ऐसे सबमिशन प्राप्त किए हैं जो गायकों द्वारा एक ही गाना बार-बार गाने को शामिल करते हैं। हालाँकि वे उस एक गाने पर शानदार सुनाई दे सकते हैं, मैं जानता हूँ कि वे उच्च और निम्न पिचों तक पहुँचने, और अधिक तीव्र और नरम वोकल इन्फेक्शंस का संयोजन करने में सक्षम हैं, जो सभी उनके वोकल मॉडल में शामिल नहीं होंगे क्योंकि मशीन लर्निंग को इस अतिरिक्त जानकारी तक पहुँच नहीं है। इसके परिणामस्वरूप, यह AI वॉयस मॉडल के लिए बहुत सीमित उपयोग का मामला प्रदान करेगा।
विविध AI वॉयस बनाने के लिए, अपने प्रशिक्षण सामग्री में वोकल प्रदर्शन की एक विस्तृत श्रृंखला शामिल करें। यह विभिन्न पिचों, भावनात्मक अभिव्यक्तियों, और वोकल तकनीकों को कवर करना चाहिए, जिसमें छाती और फालसेटो दोनों आवाजों को शामिल करना चाहिए, ताकि एक असली कलाकार की बहुगुणता को नकल किया जा सके। जबकि न्यूनतम आवश्यकता 15 मिनट का ऑडियो है, मैं पूरी 30 मिनट का उपयोग करने की सिफारिश करता हूँ ताकि गायक की क्षमताओं की पूरी रेंज को कैप्चर किया जा सके।
खाली स्थान हटाएं
वोकल सबमिशन अक्सर गीतों के अकैपेला संस्करण होते हैं। चूंकि मशीन लर्निंग प्रक्रिया केवल एक वोकल प्रदर्शन का विश्लेषण करने की परवाह करती है, लंबे खाली स्थान, जो पूरे गीत के इंस्ट्रुमेंटल सेक्शन हो सकते हैं, अव्यावश्यक होते हैं और डेटा सेट में मूल्यवान समय लेते हैं। अपने AI वॉयस मॉडल के लिए अनुकूलन करने के लिए, किसी भी गैर-वोकल सेक्शन को हटा दें और सुनिश्चित करें कि ऑडियो निरंतर है, जैसा कि ऊपर मेरे प्रारंभिक उदाहरण में दिखाया गया है। इस दृष्टिकोण का उपयोग करने से प्रशिक्षण डेटा अधिकतम होगा और आपके मॉडल को यथासंभव अधिक यथार्थता बनाए रखने में मदद मिलेगी।
अपने ऑडियो को सच्चा मोनो के रूप में निर्यात करें
अंत में, हमेशा अपने वोकल स्टेम को सच्चे मोनो ट्रैक के रूप में निर्यात करें। स्टीरियो ट्रैक्स सबमिट करना, भले ही रिकॉर्डिंग मोनो में हो, धारण की गई डेटा को दो गुना कर देता है और प्रशिक्षण के लिए उपयोग की जाने वाली सामग्री की मात्रा को कम कर देता है। सर्वश्रेष्ठ वॉयस क्लोनिंग परिणाम प्राप्त करने के लिए, अपने वोकल ट्रैक को अपलोड करने से पहले मोनो में बाउंस करके अपनी सामग्री की मात्रा को अधिकतम करें Kits.AI पर।
निष्कर्ष
इन सुझावों का पालन करके, आप सामान्य AI वोकल गलतियों से बच सकते हैं और इस शक्तिशाली उपकरण की पूरी क्षमता को खुला कर सकते हैं। याद रखें, AI एक रचनात्मक उपकरण नहीं है, यह एक निर्माता का उपकरण है। सभी नए उपकरणों और उभरती प्रौद्योगिकी की तरह, इसमें एक सीखने की अवस्था होती है, लेकिन सही दृष्टिकोण के साथ, आपके संगीत में AI वोकल्स को शामिल करना नई संभावनाएँ खोल सकता है जो एक बार असंभव थीं।
-SK
सैम कियरनी एक निर्माता, संगीतकार और ध्वनि डिजाइनर हैं जो एवरेग्रीन, CO में आधारित हैं।