एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ
Written by
Published on
23 अगस्त 2024
परिचय
आपके संगीत में AI वोकल्स को शामिल करना संगीतकारों और उत्पादकों के लिए एक रोमांचक और नवीन उपकरण है, धन्यवाद कृत्रिम बुद्धिमत्ता में प्रगति के। जैसे किसी भी नई तकनीक की आवश्यकता होती है, इसे सर्वोत्तम परिणाम प्राप्त करने के लिए कुछ समायोजन की आवश्यकता होती है। Kits.AI पर, हम डेटा सेट को संसाधित करते हैं ताकि सटीक और वास्तविक AI वोकल मॉडल प्रशिक्षण के लिए आदर्श सेटअप बनाया जा सके। समय के साथ, मैंने कुछ सामान्य गलतियाँ देखी हैं जो AI-निर्मित वोकल्स के प्रदर्शन को बाधित कर सकती हैं। इस लेख में, मैं इन खामियों को उजागर करूंगा और आपके AI वोकल मॉडलों को अनुकूलित करने के बारे में टिप्स दूंगा।
स्तर और डायनामिक्स
मानव आवाज अद्वितीय है, जैसे एक फिंगरप्रिंट, जिसमें इसका अपना टिंबर और भावनात्मक बारीकियाँ होती हैं। गाना आमतौर पर भावनात्मक अभिव्यक्ति का एक उच्च रूप होता है और स्वाभाविक रूप से आवाज में विविधता ला सकता है। जब वोकल्स को रिकॉर्ड किया जाता है, तो इन विविधताओं का प्रबंधन अक्सर माइक्रोफोन तकनीकों और कम्प्रेशर्स का उपयोग करके किया जाता है। अनुभवी सत्र गायक शोर वाले भागों के दौरान माइक्रोफोन से अपनी दूरी को समायोजित करके "स्वयं-संपीड़न" कर सकते हैं। हालाँकि, इस तकनीक के साथ, संतुलित मिक्स बनाए रखने के लिए आमतौर पर अतिरिक्त संपीड़न की आवश्यकता होती है।
जैसे प्राकृतिक संपीड़न गानों के लिए फायदेमंद होता है, यह AI वोकल मॉडलों के प्रशिक्षण प्रक्रिया को भी बढ़ाता है। Kits.AI पर, हमने पाया है कि नियंत्रित डायनेमिक रेंज वाले वोकल ट्रैक वोकल क्लोनिंग के मामले में बेहतर परिणाम पैदा करते हैं, खासकर जब प्रसंस्करण के लिए उन्नत सॉफ़्टवेयर का उपयोग किया जाता है। प्रशिक्षण के लिए एक वोकल तैयार करने की मेरी व्यक्तिगत तकनीक मेरे DAW में ट्रैक को आयात करना है, और किसी भी अतिरिक्त संपीड़न को लागू करने से पहले कुछ अधिक चरम अनुभागों को समतल करने के लिए क्लिप गेन का उपयोग करना है। यह सुनिश्चित करता है कि कम्प्रेशर बिना किसी अप्राकृतिक ध्वनियों के प्रभावी ढंग से काम करे।
नीचे दिए गए चित्र में, ऊपरी ट्रैक मूल डेटा सेट दिखाता है, जबकि निचला ट्रैक मेरे स्तर समायोजनों को दर्शाता है:
इस दृष्टिकोण का उपयोग करके, केवल एक हल्की संपीड़न की आवश्यकता होती है। मैं 3-5 dB से अधिक गेन में कमी की सिफारिश नहीं करता।
उत्तम परिणामों के लिए, -12 dB के औसत वॉल्यूम स्तर का लक्ष्य रखें, जिसके पीक -6 dB से अधिक नहीं हों। यह मशीन लर्निंग के लिए एक शानदार आधार प्रदान करता है और अधिक वास्तविकistic AI वॉयस मॉडल्स बनाता है।
कठोर सिबिलेंस को कम करने के लिए डि-एस
कठोर सिबिलेंस, जैसे ध्वनियों द्वारा उत्पन्न, "s," "t," और "z," वोकल रिकॉर्डिंग में बुरा और अप्रिय हो सकता है। डि-एसर, जैसे FabFilter का Pro-DS, इन चमकीली ध्वनियों को नियंत्रित करने के लिए आवश्यक है। यह यह सुनिश्चित करता है कि आपका AI वॉयस मॉडल इन कठोर तत्वों की नकल करने के लिए प्रशिक्षित नहीं हो, जिससे एक अधिक समृद्ध और पेशेवर उत्पादन होता है।
ईक्यू: स्पेक्ट्रम का संतुलन
अनुकुलन (ईक्यू) वोकल रिकॉर्डिंग की ध्वनि को आकार देने में महत्वपूर्ण भूमिका निभाता है। जबकि विशिष्ट ईक्यू सेटिंग्स संगीत सामग्री के अनुसार भिन्न हो सकती हैं, एक अच्छी तरह से संतुलित ईक्यू आपके AI वॉयस मॉडल की गुणवत्ता को काफी सुधार सकती है और यह सुनिश्चित कर सकती है कि आपका AI वॉयस मॉडल जिस संदर्भ और शैली में मौजूद होगा, उसके लिए एक अच्छा प्रारंभिक बिंदु प्रदान करे।
एक उच्च-पास फ़िल्टर के साथ शुरू करें ताकि किसी भी अनावश्यक निम्न-आवृत्ति को हटा सकें जो वोकल टोन में योगदान नहीं करती। हालाँकि, 100 Hz से ऊपर जाने के समय ध्यान रखें, क्योंकि इससे वोकल टिंबर के महत्वपूर्ण तत्वों का नुकसान हो सकता है।
स्पेक्ट्रम के दूसरे छोर पर, किसी भी कठोर उच्च आवृत्ति की ओर ध्यान रखें जो कई अधिक सस्ती माइक्रोफोन्स द्वारा प्रस्तुत की जा सकती हैं। हर किसी के पास गाने के लिए एक पुरानी Neumann नहीं होती (मैं खुद शामिल हूँ)। एक निम्न-पास फ़िल्टर इन आवृत्तियों को शांत करने में मदद कर सकता है, आमतौर पर 20 kHz और उससे ऊपर।
एक ऐसी ईक्यू का उपयोग करना जैसे Pultec EQP-1A, जिसे इसके चिकने और गर्म चरित्र के लिए जाना जाता है, निम्न- अंत की गड़बड़ी को साफ़ करने और उच्च को नरम करने के लिए एक शानदार विकल्प है।
पिच सुधार: कब और कैसे इसका उपयोग करें
पिच सुधार उपकरण, जैसे Antares Auto-Tune का मुफ्त संस्करण, आधुनिक संगीत उत्पादन में अक्सर एक प्रभाव के रूप में उपयोग किए जाते हैं। हालाँकि, जब AI वॉयस मॉडल को प्रशिक्षित करना, मैं वोकल्स को प्राकृतिक बनाए रखने और पिच सुधार लागू करने की सिफारिश करता हूँ, जब वोकल पहले ही क्लोन किया जा चुका हो। यह दृष्टिकोण आपके AI मॉडल की यथार्थता बनाए रखता है और भविष्य के प्रोजेक्ट के लिए लचीलापन प्रदान करता है, जिन्हें अधिक प्राकृतिक ध्वनि की आवश्यकता हो सकती है।
वोकल विविधता: अपने स्रोत सामग्री का विस्तार करें
AI वोकल प्रशिक्षण में सबसे सामान्य गलतियों में से एक वोकल डेटा सेट में विविधता की कमी है। मशीन लर्निंग मॉडल केवल प्रदान की गई सामग्री से ही प्रशिक्षण ले सकते हैं, इसलिए सीमित डेटा सेट एक सीमित वोकल मॉडल का परिणाम होता है। स्पष्ट करने के लिए, मैंने ऐसे सबमिशन प्राप्त किए हैं जिनमें गायक एक ही गीत को बार-बार गा रहे हैं। हालांकि वे उस एक गाने पर शानदार लग सकते हैं, मुझे पता है कि वे ऊँची और नीची पिचों तक पहुँचने, अधिक तीव्र और नरम वोकल इन्फ्लेक्शन्स का प्रदर्शन करने में सक्षम हैं, जो उनके वोकल मॉडल में शामिल नहीं किए जाएंगे क्योंकि मशीन लर्निंग इस अतिरिक्त जानकारी तक पहुँच नहीं होती। इसके परिणामस्वरूप, यह AI वॉयस मॉडल के लिए बहुत सीमित उपयोग का मामला प्रदान करेगा।
विविधता लाने के लिए AI वॉयस बनाने के लिए, अपने प्रशिक्षण सामग्री में वोकल प्रदर्शन की एक विस्तृत श्रृंखला शामिल करें। यह विभिन्न पिचों, भावनात्मक अभिव्यक्तियों, और वोकल तकनीकों को कवर करना चाहिए, जिसमें चेस्ट और फाल्सेटो वोकल्स दोनों शामिल हैं, ताकि एक वास्तविक कलाकार की विविधता का अनुकरण किया जा सके। यद्यपि न्यूनतम आवश्यकता 15 मिनट ऑडियो है, मैं वोकलिस्ट की क्षमताओं की पूरी श्रृंखला को कैप्चर करने के लिए पूरे 30 मिनट का उपयोग करने की सिफारिश करता हूँ।
खाली स्थान हटा दें
वोकल सबमिशन अक्सर गीतों के पूरे अकापेला संस्करण होते हैं। चूंकि मशीन लर्निंग प्रक्रिया केवल एक वोकल प्रदर्शन का विश्लेषण करने की परवाह करती है, लंबे खाली स्थान, जो एक पूर्ण गीत के वाद्य अनुभाग हो सकते हैं, अनावश्यक होते हैं और डेटा सेट में मूल्यवान समय लेते हैं। अपने AI वॉयस मॉडल को अनुकूलित करने के लिए, किसी भी गैर-वोकल अनुभाग को हटा दें और सुनिश्चित करें कि ऑडियो निरंतर हो, जैसा कि मैंने ऊपर अपने प्रारंभिक उदाहरण में दिखाया। इस दृष्टिकोण का उपयोग करने से प्रशिक्षण डेटा का अधिकतमकरण किया जाएगा और आपके मॉडल को यथासंभव यथार्थता बनाए रखने में मदद मिलेगी।
अपना ऑडियो सही मोनो के रूप में निर्यात करें
अंत में, हमेशा अपने वोकल स्टेम को सही मोनो ट्रैक के रूप में निर्यात करें। स्टेरियो ट्रैक सबमिट करना, भले ही रिकॉर्डिंग मोनो में हो, संवेदी डेटा को दो गुना कर देता है और प्रशिक्षण के लिए उपयोगी सामग्री की मात्रा को कम कर देता है। सर्वोत्तम वॉइस क्लोनिंग परिणामों को प्राप्त करने के लिए, अपने वोकल ट्रैक को अपलोड करने से पहले मोनो में बाउंस करके आपके मॉडल को प्रशिक्षित करने के लिए सामग्री की मात्रा को अधिकतम करें Kits.AI पर।
निष्कर्ष
इन सुझावों का पालन करके, आप सामान्य AI वोकल गलतियों से अवश्य बच सकते हैं और इस शक्तिशाली उपकरण की पूरी क्षमता को अनलॉक करने के साथ शुरू कर सकते हैं। याद रखें, AI एक रचनात्मक उपकरण नहीं है, यह एक निर्माता का उपकरण है। जैसे सभी नए उपकरण और उभरती तकनीक, इसमें एक सीखने की अवस्था है, लेकिन सही दृष्टिकोण के साथ, आपके संगीत में AI वोकल्स का समावेश नई संभावनाओं को खोल सकता है जो एक बार अकल्पनीय थीं।
-SK
सैम कियरनी एक निर्माता, संगीतकार और ध्वनि डिज़ाइनर हैं जो एवरग्रीन, CO में आधारित हैं।