एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ

अपने एआई ध्वनिक परिवर्तनों को सबसे अच्छा बनाने के लिए सर्वश्रेष्ठ टिप्स और ट्रिक्स के लिए पढ़ें, जिन्हें लेखक, गीतकार और निर्माता सैम कर्नी ने संकलित किया है।

एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ
एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ
एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ

द्वारा लिखा गया

सैम कर्नी

सैम कर्नी

प्रकाशित किया गया

23 अगस्त 2024

लिंक कॉपी करें

कॉपी किया गया

परिचय

आपके संगीत में AI वोकल्स को शामिल करना संगीतकारों और उत्पादकों के लिए एक रोमांचक और अभिनव उपकरण है, जो कृत्रिम बुद्धिमत्ता में प्रगति के लिए धन्यवाद है। किसी भी नई तकनीक की तरह, इसे सर्वोत्तम परिणाम प्राप्त करने के लिए कुछ ट्यूनिंग की आवश्यकता होती है। किट्स में, हम डेटा सेट को प्रसंस्करण करते हैं ताकि वास्तविक और सटीक AI वोकल मॉडल प्रशिक्षण के लिए आदर्श सेटअप बनाए जा सकें। समय के साथ, मैंने सामान्य गलतियों पर ध्यान दिया है जो AI-जनित वोकल्स के प्रदर्शन को बाधित कर सकती हैं। इस लेख में, मैं इन pitfalls को उजागर करूँगा और आपके AI वोकल मॉडलों को अनुकूलित करने के लिए सुझाव दूँगा।

A page of sheet music

स्तर और गतिशीलता

मानव स्वर अद्वितीय है, जैसे एक उँगली के निशान, इसकी अपनी टिंबर और भावनात्मक बारीकियों के साथ। गाना आमतौर पर भावनात्मक अभिव्यक्ति का एक उच्च रूप है और स्वाभाविक रूप से लाउडनेस में भिन्न हो सकता है। जब वोकल्स रिकॉर्ड करते हैं, तो इन भिन्नताओं को बहुधा माइक्रोफोन तकनीकों और कंप्रेसरों का उपयोग करके प्रबंधित किया जाता है। अनुभवी सत्र गायक जोरदार हिस्सों के दौरान माइक्रोफोन से अपनी दूरी समायोजित करके "सेल्फ-कंप्रेस" कर सकते हैं। हालाँकि, यहां तक कि इस तकनीक के साथ भी, आमतौर पर संतुलित मिक्स बनाए रखने के लिए अतिरिक्त कंप्रेशन की आवश्यकता होती है।

जैसे प्राकृतिक कंप्रेशन गानों को लाभ पहुँचाता है, यह AI वोकल मॉडलों के प्रशिक्षण प्रक्रिया को भी बढ़ाता है। किट्स एआई में, हमने पाया है कि नियंत्रणित गतिशील रेंज वाले वोकल ट्रैक्स, विशेष रूप से प्रोसेसिंग के लिए उन्नत सॉफ़्टवेयर का उपयोग करते समय, वोकल क्लोनिंग के परिणाम बेहतर उत्पन्न करते हैं। मेरे व्यक्तिगत तकनीक में वोकल को प्रशिक्षण के लिए तैयार करना है कि मैं ट्रैक को मेरे DAW में आयात करूँ, और कुछ चरम हिस्सों को लेवल करने के लिए क्लिप गेन का उपयोग करूँ, इससे पहले कि कोई अतिरिक्त कंप्रेशन लागू करूँ। यह सुनिश्चित करता है कि कंप्रेसर बिना अप्राकृतिक ध्वनियों को पेश किए प्रभावी ढंग से काम करे।

नीचे चित्र में, शीर्ष ट्रैक मूल डेटा सेट को दिखाता है, जबकि निचला ट्रैक मेरे स्तर समायोजनों को दर्शाता है:

Two tracks in a DAW

इस दृष्टिकोण का उपयोग करके, केवल हल्की कंप्रेशन की आवश्यकता होती है। मैं 3-5 dB से अधिक गेन में कमी की सिफारिश नहीं करता।

सर्वश्रेष्ठ परिणामों के लिए, -12 dB की औसत ध्वनि स्तर और -6 dB से अधिक के पीक का लक्ष्य रखें। यह मशीन लर्निंग के लिए एक शानदार नींव प्रदान करता है और अधिक वास्तविक AI वॉयस मॉडेल्स बनाता है।

कठोर सिबिलेंस को कम करने के लिए डि-एस

कठोर सिबिलेंस, जो 's', 't', और 'z' जैसे व्यंजनियों के कारण होती है, वोकल रिकॉर्डिंग में ध्यान भंग कर सकती है और अप्रिय हो सकती है। FabFilter का Pro-DS जैसे डि-एसर्स इन उज्ज्वल ध्वनियों को नियंत्रित करने के लिए आवश्यक हैं।  यह सुनिश्चित करता है कि आपका AI वॉयस मॉडल इन कठोर तत्वों को दोहराने के लिए प्रशिक्षित न हो, जिससे एक नरम और पेशेवर आउटपुट प्राप्त होता है।

FabFilter Pro DS

ईक्यू: स्पेक्ट्रम का संतुलन

इक्वलाइजेशन (ईक्यू) एक वोकल रिकॉर्डिंग की ध्वनि को आकार देने में महत्वपूर्ण भूमिका निभाता है। जबकि विशिष्ट ईक्यू सेटिंग्स संगीत सामग्री के आधार पर भिन्न हो सकती हैं, एक संतुलित ईक्यू आपके AI वॉयस क्लोन की गुणवत्ता को महत्वपूर्ण रूप से सुधार सकता है और आपके AI वॉयस मॉडल के लिए किसी भी संदर्भ और शैली के लिए शानदार प्रारंभिक बिंदु प्रदान कर सकता है। 

एक उच्च-पास फ़िल्टर का उपयोग करके किसी भी अनावश्यक निम्न आवृत्तियों को निकाल दें जो वोकल टोन में योगदान नहीं करते हैं। हालाँकि, 100 Hz से ऊपर जाने में सावधानी बरतें, क्योंकि इससे स्वर की महत्वपूर्ण तत्वों को खतम किया जा सकता है।

स्पेक्ट्रम के दूसरी ओर, किसी भी कठोर उच्च आवृत्तियों पर ध्यान दें जो कई अधिक किफायती माइक्रोफोन्स द्वारा पेश किए जा सकते हैं। हर किसी के पास एक प्राचीन Neumann नहीं होता (मेरे सहित)। एक निम्न-पास फ़िल्टर इन आवृत्तियों को शांत करने में मदद कर सकता है, आमतौर पर 20 kHz और उससे ऊपर। 

एक ईक्यू जैसे Pultec EQP-1A, जो अपनी मुलायम और गर्म चरित्र के लिए जाना जाता है, निम्न आवृत्ति की गड़बड़ी को साफ करने और ऊँचाई को नरम करने के लिए एक बेहतरीन विकल्प है। 

Adjusting EQ with the Pultec EQP-1A

पिच सुधार: कब और कैसे उपयोग करें

पिच सुधार उपकरण, जैसे कि Antares Auto-Tune का मुफ्त संस्करण, आधुनिक संगीत उत्पादन में अक्सर एक प्रभाव के रूप में उपयोग किए जाते हैं। हालाँकि, जब AI वॉयस मॉडल को प्रशिक्षित करते हैं, तो मैं वोकल्स को प्राकृतिक बनाए रखने और पिच सुधार लागू करने की सिफारिश करता हूँ, जब वोकल पहले ही क्लोन किया जा चुका हो। यह दृष्टिकोण आपके AI मॉडल की यथार्थवाद को बनाए रखता है और भविष्य की परियोजनाओं के लिए लचीलापन प्रदान करता है जो अधिक प्राकृतिक ध्वनि की मांग कर सकती हैं।

वोकल विविधता: अपने स्रोत सामग्री का विस्तार करें

AI वोकल प्रशिक्षण में सबसे आम गलतियों में से एक वोकल डेटा सेट में विविधता की कमी है। मशीन लर्निंग मॉडल केवल प्रदान की गई सामग्री से प्रशिक्षित हो सकते हैं, इसलिए एक सीमित डेटा सेट एक सीमित वोकल मॉडल का परिणाम देता है। विस्तार से, मैंने ऐसे सबमिशन प्राप्त किए हैं जो गायकों द्वारा एक ही गाना बार-बार गाने को शामिल करते हैं। हालाँकि वे उस एक गाने पर शानदार सुनाई दे सकते हैं, मैं जानता हूँ कि वे उच्च और निम्न पिचों तक पहुँचने, और अधिक तीव्र और नरम वोकल इन्फेक्शंस का संयोजन करने में सक्षम हैं, जो सभी उनके वोकल मॉडल में शामिल नहीं होंगे क्योंकि मशीन लर्निंग को इस अतिरिक्त जानकारी तक पहुँच नहीं है। इसके परिणामस्वरूप, यह AI वॉयस मॉडल के लिए बहुत सीमित उपयोग का मामला प्रदान करेगा।

विविध AI वॉयस बनाने के लिए, अपने प्रशिक्षण सामग्री में वोकल प्रदर्शन की एक विस्तृत श्रृंखला शामिल करें। यह विभिन्न पिचों, भावनात्मक अभिव्यक्तियों, और वोकल तकनीकों को कवर करना चाहिए, जिसमें छाती और फालसेटो दोनों आवाजों को शामिल करना चाहिए, ताकि एक असली कलाकार की बहुगुणता को नकल किया जा सके। जबकि न्यूनतम आवश्यकता 15 मिनट का ऑडियो है, मैं पूरी 30 मिनट का उपयोग करने की सिफारिश करता हूँ ताकि गायक की क्षमताओं की पूरी रेंज को कैप्चर किया जा सके।

A sound mixer

खाली स्थान हटाएं

वोकल सबमिशन अक्सर गीतों के अकैपेला संस्करण होते हैं। चूंकि मशीन लर्निंग प्रक्रिया केवल एक वोकल प्रदर्शन का विश्लेषण करने की परवाह करती है, लंबे खाली स्थान, जो पूरे गीत के इंस्ट्रुमेंटल सेक्शन हो सकते हैं, अव्यावश्यक होते हैं और डेटा सेट में मूल्यवान समय लेते हैं। अपने AI वॉयस मॉडल के लिए अनुकूलन करने के लिए, किसी भी गैर-वोकल सेक्शन को हटा दें और सुनिश्चित करें कि ऑडियो निरंतर है, जैसा कि ऊपर मेरे प्रारंभिक उदाहरण में दिखाया गया है। इस दृष्टिकोण का उपयोग करने से प्रशिक्षण डेटा अधिकतम होगा और आपके मॉडल को यथासंभव अधिक यथार्थता बनाए रखने में मदद मिलेगी।

अपने ऑडियो को सच्चा मोनो के रूप में निर्यात करें

अंत में, हमेशा अपने वोकल स्टेम को सच्चे मोनो ट्रैक के रूप में निर्यात करें। स्टीरियो ट्रैक्स सबमिट करना, भले ही रिकॉर्डिंग मोनो में हो, धारण की गई डेटा को दो गुना कर देता है और प्रशिक्षण के लिए उपयोग की जाने वाली सामग्री की मात्रा को कम कर देता है। सर्वश्रेष्ठ वॉयस क्लोनिंग परिणाम प्राप्त करने के लिए, अपने वोकल ट्रैक को अपलोड करने से पहले मोनो में बाउंस करके अपनी सामग्री की मात्रा को अधिकतम करें Kits.AI पर।

निष्कर्ष

इन सुझावों का पालन करके, आप सामान्य AI वोकल गलतियों से बच सकते हैं और इस शक्तिशाली उपकरण की पूरी क्षमता को खुला कर सकते हैं। याद रखें, AI एक रचनात्मक उपकरण नहीं है, यह एक निर्माता का उपकरण है। सभी नए उपकरणों और उभरती प्रौद्योगिकी की तरह, इसमें एक सीखने की अवस्था होती है, लेकिन सही दृष्टिकोण के साथ, आपके संगीत में AI वोकल्स को शामिल करना नई संभावनाएँ खोल सकता है जो एक बार असंभव थीं।


-SK

सैम कियरनी एक निर्माता, संगीतकार और ध्वनि डिजाइनर हैं जो एवरेग्रीन, CO में आधारित हैं।

विषय-सूची

शीर्षक

शीर्षक

शुरू करें, मुफ्त।

अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं

शुरू करें, मुफ्त।

अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं

शुरू करें, मुफ्त।

अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं