एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ

अपने एआई ध्वनिक परिवर्तनों को सबसे अच्छा बनाने के लिए सर्वश्रेष्ठ टिप्स और ट्रिक्स के लिए पढ़ें, जिन्हें लेखक, गीतकार और निर्माता सैम कर्नी ने संकलित किया है।

एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ

द्वारा लिखा गया

किट्स टीम

प्रकाशित किया गया

23 अगस्त 2024

लिंक कॉपी करें

कॉपी किया गया

परिचय

आर्टिफिशियल इंटेलिजेंस (कृत्रिम बुद्धिमत्ता) में प्रगति के कारण, अपने संगीत में AI वोकल्स को शामिल करना संगीतकारों और निर्माताओं के लिए एक रोमांचक और अभिनव उपकरण है। किसी भी नई तकनीक की तरह, सर्वोत्तम परिणाम प्राप्त करने के लिए इसमें कुछ बारीक सुधारों (फाइन-ट्यूनिंग) की आवश्यकता होती है। Kits में, हम सटीक और यथार्थवादी AI वोकल मॉडल प्रशिक्षण के लिए आदर्श सेटअप बनाने के लिए डेटा सेट को प्रोसेस करते हैं। समय के साथ, मैंने कुछ ऐसी सामान्य गलतियों पर ध्यान दिया है जो AI-जनरेटेड वोकल्स के प्रदर्शन में बाधा डाल सकती हैं। इस लेख में, मैं इन कमियों को उजागर करूँगा और आपके AI वोकल मॉडल को बेहतर बनाने के टिप्स दूंगा।

A page of sheet music

लेवल और डायनामिक्स

मानव आवाज़ एक फिंगरप्रिंट की तरह अद्वितीय होती है, जिसका अपना एक विशेष स्वर (टिम्ब्रे) और भावनात्मक उतार-चढ़ाव होता है। गायन आमतौर पर भावनात्मक अभिव्यक्ति का एक प्रखर रूप है और स्वाभाविक रूप से इसकी तीव्रता (लाउडनेस) में उतार-चढ़ाव हो सकता है। जब वोकल्स रिकॉर्ड किए जा रहे हों, तो इन उतार-चढ़ावों को अक्सर माइक तकनीकों और कम्प्रेसर का उपयोग करके प्रबंधित किया जाता है। अनुभवी सेशन सिंगर ऊंचे स्वरों (लाउड सेक्शन) के दौरान माइक से दूरी को समायोजित करके खुद को "सेल्फ-कम्प्रेस" कर सकते हैं। हालाँकि, इस तकनीक के साथ भी, आमतौर पर एक संतुलित मिक्स बनाए रखने के लिए अतिरिक्त कम्प्रेशन की आवश्यकता होती है।

जिस तरह गानों को नेचुरल कम्प्रेशन से फायदा होता है, उसी तरह यह AI वोकल मॉडल के लिए ट्रेनिंग की प्रक्रिया को भी बेहतर बनाता है। Kits AI में, हमने पाया है कि जब प्रोसेसिंग के लिए एडवांस सॉफ्टवेयर का उपयोग किया जाता है, तो नियंत्रित डायनामिक रेंज वाले वोकल ट्रैक वोकल क्लोनिंग के मामले में बेहतर परिणाम देते हैं। ट्रेनिंग के लिए वोकल तैयार करने की मेरी व्यक्तिगत तकनीक यह है कि मैं ट्रैक को अपने DAW में इम्पोर्ट करता हूँ, और किसी भी अतिरिक्त कम्प्रेशन को लागू करने से पहले कुछ अधिक तीव्र वर्गों को समतल (लेवल) करने के लिए क्लिप गेन का उपयोग करता हूँ। यह सुनिश्चित करता है कि कम्प्रेसर अप्राकृतिक आवाज़ें पैदा किए बिना कुशलता से काम करे।

नीचे दी गई छवि में, शीर्ष ट्रैक मूल डेटा सेट दिखाता है, जबकि निचला ट्रैक मेरे द्वारा किए गए लेवलिंग एडजस्टमेंट को दर्शाता है:

Two tracks in a DAW

इस दृष्टिकोण का उपयोग करके, केवल थोड़े से कम्प्रेशन की आवश्यकता होती है। मैं 3-5 dB से अधिक गेन रिडक्शन (gain reduction) की अनुशंसा नहीं करता हूँ।

सर्वोत्तम परिणामों के लिए, -12 dB के औसत वॉल्यूम स्तर का लक्ष्य रखें, जिसमें पीक -6 dB से अधिक न हो। यह मशीन लर्निंग के लिए एक बेहतरीन आधार प्रदान करता है और अधिक यथार्थवादी AI वॉइस मॉडल बनाता है।

तेज सिबिलेंस (Sibilance) को कम करने के लिए De-ess करें

वोकल्स रिकॉर्डिंग में "s," "t," और "z" जैसे व्यंजनों के कारण होने वाली तेज सिबिलेंस (तीखी आवाज़ें) ध्यान भटकाने वाली और अप्रिय हो सकती हैं। इन तीखे स्वरों को नियंत्रित करने के लिए FabFilter का Pro-DS जैसा डी-एस्सर आवश्यक है।  यह सुनिश्चित करता है कि आपका AI वॉइस मॉडल इन तीखे तत्वों को दोहराने के लिए प्रशिक्षित न हो, जिससे अधिक सहज और प्रोफेशनल आउटपुट मिलता है।

FabFilter Pro DS

EQ: स्पेक्ट्रम को संतुलित करना

इक्वलाइजेशन (EQ) वोकल रिकॉर्डिंग की आवाज़ को आकार देने में महत्वपूर्ण भूमिका निभाता है। हालांकि विशिष्ट EQ सेटिंग्स संगीतमय सामग्री के आधार पर भिन्न हो सकती हैं, एक अच्छी तरह से संतुलित EQ आपके AI वॉइस क्लोन की गुणवत्ता में काफी सुधार कर सकता है और आपके AI वॉइस मॉडल के लिए एक बेहतरीन शुरुआती बिंदु प्रदान कर सकता है, चाहे वह किसी भी संदर्भ और शैली में हो। 

किसी भी अनावश्यक लो-एंड फ्रीक्वेंसी को हटाने के लिए हाई-पास फ़िल्टर से शुरुआत करें जो वोकल टोन में योगदान नहीं करती हैं। हालाँकि, 100 Hz से ऊपर जाते समय सावधानी बरतें, क्योंकि यह वोकल टोन के महत्वपूर्ण तत्वों को हटा सकता है।

स्पेक्ट्रम के दूसरे छोर पर, किसी भी तीखी हाई-एंड फ्रीक्वेंसी के प्रति सचेत रहें जो बजट-अनुकूल माइक्रोफ़ोन द्वारा उत्पन्न हो सकती हैं। हर किसी के पास गाने के लिए विंटेज Neumann माइक नहीं होता (मुझ सहित)। लो-पास फ़िल्टर इन फ्रीक्वेंसी को नियंत्रित करने में मदद कर सकता है, आमतौर पर लगभग 20 kHz और उससे अधिक पर। 

Pultec EQP-1A जैसे EQ का उपयोग करना, जो अपने सहज और वार्म कैरेक्टर के लिए जाना जाता है, लो-एंड रंबल को साफ करने और हाई नोट्स को नरम करने के लिए एक बेहतरीन विकल्प है। 

Adjusting EQ with the Pultec EQP-1A

पिच सुधार (Pitch Correction): कब और कैसे उपयोग करें

आधुनिक संगीत निर्माण में पिच सुधार उपकरणों का उपयोग अक्सर एक प्रभाव (इफेक्ट) के रूप में किया जाता है। हालाँकि, जब AI वॉइस मॉडल को प्रशिक्षित कर रहे हों, तो मैं वोकल्स को प्राकृतिक रखने और वोकल क्लोन होने के बाद पिच सुधार को लागू करने की सलाह देता हूँ। यह दृष्टिकोण आपके AI मॉडल की यथार्थवादता को बनाए रखता है और भविष्य की परियोजनाओं के लिए लचीलापन प्रदान करता है जिन्हें अधिक प्राकृतिक आवाज़ की आवश्यकता हो सकती है।

वोकल विविधता: अपनी स्रोत सामग्री का विस्तार करें

AI वोकल ट्रेनिंग में सबसे आम गलतियों में से एक वोकल डेटासेट में विविधता की कमी है। मशीन लर्निंग मॉडल केवल प्रदान की गई सामग्री से ही सीख सकते हैं, इसलिए सीमित डेटासेट के परिणामस्वरूप एक सीमित वोकल मॉडल ही बनता है। विस्तार से कहें तो, मुझे ऐसे सबमिशन मिले हैं जिनमें गायक बार-बार एक ही गाना गा रहे हैं। हालाँकि वे उस एक गाने पर बहुत अच्छे लग सकते हैं, लेकिन मुझे पता है कि वे उच्च और निम्न पिचों तक पहुँचने में सक्षम हैं, अधिक तीव्र और नरम वोकल उतार-चढ़ाव व्यक्त कर सकते हैं, जिनमें से कोई भी उनके वोकल मॉडल में शामिल नहीं होगा क्योंकि मशीन लर्निंग के पास इस अतिरिक्त जानकारी तक पहुंच नहीं है। नतीजतन, यह AI वॉइस मॉडल के उपयोग को बेहद सीमित कर देगा।

सक्षम और विविध AI आवाजें बनाने के लिए, अपनी प्रशिक्षण सामग्री में वोकल परफॉरमेंस की एक विस्तृत श्रृंखला शामिल करें। इसमें वास्तविक आर्टिस्ट की बहुमुखी प्रतिभा की नकल करने के लिए विभिन्न पिच, भावनात्मक अभिव्यक्तियां और वोकल तकनीकें शामिल होनी चाहिए, जिसमें चेस्ट और फाल्सेटो दोनों आवाजें शामिल हैं। हालांकि न्यूनतम आवश्यकता 15 मिनट के ऑडियो की है, मैं गायक की क्षमताओं को पूरी तरह से कैप्चर करने के लिए पूरे 30 मिनट का उपयोग करने की सलाह देता हूं।

A sound mixer

खाली स्थान (साइलेंस) हटाएं

वोकल सबमिशन अक्सर गानों के उनके संपूर्ण रूप में एकापेला (acapella) संस्करण होते हैं। चूंकि मशीन लर्निंग प्रक्रिया केवल वोकल परफॉरमेंस का विश्लेषण करने पर ध्यान केंद्रित करती है, इसलिए लंबे खाली स्थान, जो कि एक पूर्ण गाने के इंस्ट्रुमेंटल सेक्शन हो सकते हैं, अनावश्यक हैं और डेटासेट में मूल्यवान समय लेते हैं। अपने AI वॉइस मॉडल को बेहतर बनाने के लिए, किसी भी गैर-वोकल सेक्शन को हटा दें और सुनिश्चित करें कि ऑडियो निरंतर है, जैसा कि ऊपर मेरे शुरुआती उदाहरण में दिखाया गया है। इस दृष्टिकोण का उपयोग करने से ट्रेनिंग डेटा अधिकतम होगा और आपके मॉडल को यथासंभव यथार्थवाद बनाए रखने में मदद मिलेगी।

अपने ऑडियो को ट्रू मोनो (True Mono) के रूप में एक्सपोर्ट करें

अंत में, हमेशा अपने वोकल स्टेम्स (vocal stems) को ट्रू मोनो ट्रैक्स के रूप में एक्सपोर्ट करें। स्टीरियो ट्रैक सबमिट करने से, भले ही रिकॉर्डिंग मोनो में थी, डेटा दोगुना हो जाता है और ट्रेनिंग के लिए उपयोगी सामग्री की मात्रा कम हो जाती है। सर्वोत्तम वॉइस क्लोनिंग परिणाम प्राप्त करने के लिए, Kits.AI पर अपलोड करने से पहले अपने वोकल ट्रैक को मोनो में बदलकर उस सामग्री की मात्रा को अधिकतम करें जिस पर आपका मॉडल प्रशिक्षित किया जा सकता है।

निष्कर्ष

इन युक्तियों का पालन करके, आप सामान्य AI वोकल गलतियों से बच सकते हैं और इस शक्तिशाली उपकरण की पूरी क्षमता का लाभ उठाना शुरू कर सकते हैं। याद रखें, AI कोई रचनात्मक उपकरण नहीं है, यह निर्माता का उपकरण है। सभी नए उपकरणों और उभरती हुई तकनीक की तरह, इसमें भी सीखने की प्रक्रिया (लर्निंग कर्व) होती है, लेकिन सही दृष्टिकोण के साथ, अपने संगीत में AI वोकल्स को शामिल करने से नई संभावनाएं खुल सकती हैं जो कभी अकल्पनीय थीं।

विषय-सूची

शीर्षक

शुरू करें, मुफ्त।

अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं

आपके लिए अनुशंसित ब्लॉग पोस्ट