23 अगस्त 2024

एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ

अपने एआई ध्वनिक परिवर्तनों को सबसे अच्छा बनाने के लिए सर्वश्रेष्ठ टिप्स और ट्रिक्स के लिए पढ़ें, जिन्हें लेखक, गीतकार और निर्माता सैम कर्नी ने संकलित किया है।

सैम कर्नी

एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ
एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ
एआई ध्वनियों का उपयोग करते समय बचने वाली सामान्य गलतियाँ

विषय-सूची

शीर्षक

शीर्षक

मुफ्त शुरू करें। कोई क्रेडिट कार्ड आवश्यक नहीं है।

हमारा मुफ्त प्लान आपको दिखाता है कि किट्स आपके ध्वनिक और ऑडियो वर्कफ़्लो को कैसे सुचारू बना सकते हैं। जब आप अगला कदम उठाने के लिए तैयार हों, तो चुकाने वाले प्लान महीने के $9.99 से शुरू होते हैं।

मुफ्त शुरू करें। कोई क्रेडिट कार्ड आवश्यक नहीं है।

हमारा मुफ्त प्लान आपको दिखाता है कि किट्स आपके ध्वनिक और ऑडियो वर्कफ़्लो को कैसे सुचारू बना सकते हैं। जब आप अगला कदम उठाने के लिए तैयार हों, तो चुकाने वाले प्लान महीने के $9.99 से शुरू होते हैं।

मुफ्त शुरू करें। कोई क्रेडिट कार्ड आवश्यक नहीं है।

हमारा मुफ्त प्लान आपको दिखाता है कि किट्स आपके ध्वनिक और ऑडियो वर्कफ़्लो को कैसे सुचारू बना सकते हैं। जब आप अगला कदम उठाने के लिए तैयार हों, तो चुकाने वाले प्लान महीने के $9.99 से शुरू होते हैं।

परिचय

आपके संगीत में AI वोकल्स को शामिल करना संगीतकारों और उत्पादकों के लिए एक रोमांचक और नवीन उपकरण है, धन्यवाद कृत्रिम बुद्धिमत्ता में प्रगति के। जैसे किसी भी नई तकनीक की आवश्यकता होती है, इसे सर्वोत्तम परिणाम प्राप्त करने के लिए कुछ समायोजन की आवश्यकता होती है। Kits.AI पर, हम डेटा सेट को संसाधित करते हैं ताकि सटीक और वास्तविक AI वोकल मॉडल प्रशिक्षण के लिए आदर्श सेटअप बनाया जा सके। समय के साथ, मैंने कुछ सामान्य गलतियाँ देखी हैं जो AI-निर्मित वोकल्स के प्रदर्शन को बाधित कर सकती हैं। इस लेख में, मैं इन खामियों को उजागर करूंगा और आपके AI वोकल मॉडलों को अनुकूलित करने के बारे में टिप्स दूंगा।

A page of sheet music

स्तर और डायनामिक्स

मानव आवाज अद्वितीय है, जैसे एक फिंगरप्रिंट, जिसमें इसका अपना टिंबर और भावनात्मक बारीकियाँ होती हैं। गाना आमतौर पर भावनात्मक अभिव्यक्ति का एक उच्च रूप होता है और स्वाभाविक रूप से आवाज में विविधता ला सकता है। जब वोकल्स को रिकॉर्ड किया जाता है, तो इन विविधताओं का प्रबंधन अक्सर माइक्रोफोन तकनीकों और कम्प्रेशर्स का उपयोग करके किया जाता है। अनुभवी सत्र गायक शोर वाले भागों के दौरान माइक्रोफोन से अपनी दूरी को समायोजित करके "स्वयं-संपीड़न" कर सकते हैं। हालाँकि, इस तकनीक के साथ, संतुलित मिक्स बनाए रखने के लिए आमतौर पर अतिरिक्त संपीड़न की आवश्यकता होती है।

जैसे प्राकृतिक संपीड़न गानों के लिए फायदेमंद होता है, यह AI वोकल मॉडलों के प्रशिक्षण प्रक्रिया को भी बढ़ाता है। Kits.AI पर, हमने पाया है कि नियंत्रित डायनेमिक रेंज वाले वोकल ट्रैक वोकल क्लोनिंग के मामले में बेहतर परिणाम पैदा करते हैं, खासकर जब प्रसंस्करण के लिए उन्नत सॉफ़्टवेयर का उपयोग किया जाता है। प्रशिक्षण के लिए एक वोकल तैयार करने की मेरी व्यक्तिगत तकनीक मेरे DAW में ट्रैक को आयात करना है, और किसी भी अतिरिक्त संपीड़न को लागू करने से पहले कुछ अधिक चरम अनुभागों को समतल करने के लिए क्लिप गेन का उपयोग करना है। यह सुनिश्चित करता है कि कम्प्रेशर बिना किसी अप्राकृतिक ध्वनियों के प्रभावी ढंग से काम करे।

नीचे दिए गए चित्र में, ऊपरी ट्रैक मूल डेटा सेट दिखाता है, जबकि निचला ट्रैक मेरे स्तर समायोजनों को दर्शाता है:

Two tracks in a DAW

इस दृष्टिकोण का उपयोग करके, केवल एक हल्की संपीड़न की आवश्यकता होती है। मैं 3-5 dB से अधिक गेन में कमी की सिफारिश नहीं करता।

उत्तम परिणामों के लिए, -12 dB के औसत वॉल्यूम स्तर का लक्ष्य रखें, जिसके पीक -6 dB से अधिक नहीं हों। यह मशीन लर्निंग के लिए एक शानदार आधार प्रदान करता है और अधिक वास्तविकistic AI वॉयस मॉडल्स बनाता है।

कठोर सिबिलेंस को कम करने के लिए डि-एस

कठोर सिबिलेंस, जैसे ध्वनियों द्वारा उत्पन्न, "s," "t," और "z," वोकल रिकॉर्डिंग में बुरा और अप्रिय हो सकता है। डि-एसर, जैसे FabFilter का Pro-DS, इन चमकीली ध्वनियों को नियंत्रित करने के लिए आवश्यक है।  यह यह सुनिश्चित करता है कि आपका AI वॉयस मॉडल इन कठोर तत्वों की नकल करने के लिए प्रशिक्षित नहीं हो, जिससे एक अधिक समृद्ध और पेशेवर उत्पादन होता है।

FabFilter Pro DS

ईक्यू: स्पेक्ट्रम का संतुलन

अनुकुलन (ईक्यू) वोकल रिकॉर्डिंग की ध्वनि को आकार देने में महत्वपूर्ण भूमिका निभाता है। जबकि विशिष्ट ईक्यू सेटिंग्स संगीत सामग्री के अनुसार भिन्न हो सकती हैं, एक अच्छी तरह से संतुलित ईक्यू आपके AI वॉयस मॉडल की गुणवत्ता को काफी सुधार सकती है और यह सुनिश्चित कर सकती है कि आपका AI वॉयस मॉडल जिस संदर्भ और शैली में मौजूद होगा, उसके लिए एक अच्छा प्रारंभिक बिंदु प्रदान करे। 

एक उच्च-पास फ़िल्टर के साथ शुरू करें ताकि किसी भी अनावश्यक निम्न-आवृत्ति को हटा सकें जो वोकल टोन में योगदान नहीं करती। हालाँकि, 100 Hz से ऊपर जाने के समय ध्यान रखें, क्योंकि इससे वोकल टिंबर के महत्वपूर्ण तत्वों का नुकसान हो सकता है।

स्पेक्ट्रम के दूसरे छोर पर, किसी भी कठोर उच्च आवृत्ति की ओर ध्यान रखें जो कई अधिक सस्ती माइक्रोफोन्स द्वारा प्रस्तुत की जा सकती हैं। हर किसी के पास गाने के लिए एक पुरानी Neumann नहीं होती (मैं खुद शामिल हूँ)। एक निम्न-पास फ़िल्टर इन आवृत्तियों को शांत करने में मदद कर सकता है, आमतौर पर 20 kHz और उससे ऊपर। 

एक ऐसी ईक्यू का उपयोग करना जैसे Pultec EQP-1A, जिसे इसके चिकने और गर्म चरित्र के लिए जाना जाता है, निम्न- अंत की गड़बड़ी को साफ़ करने और उच्च को नरम करने के लिए एक शानदार विकल्प है। 

Adjusting EQ with the Pultec EQP-1A

पिच सुधार: कब और कैसे इसका उपयोग करें

पिच सुधार उपकरण, जैसे Antares Auto-Tune का मुफ्त संस्करण, आधुनिक संगीत उत्पादन में अक्सर एक प्रभाव के रूप में उपयोग किए जाते हैं। हालाँकि, जब AI वॉयस मॉडल को प्रशिक्षित करना, मैं वोकल्स को प्राकृतिक बनाए रखने और पिच सुधार लागू करने की सिफारिश करता हूँ, जब वोकल पहले ही क्लोन किया जा चुका हो। यह दृष्टिकोण आपके AI मॉडल की यथार्थता बनाए रखता है और भविष्य के प्रोजेक्ट के लिए लचीलापन प्रदान करता है, जिन्हें अधिक प्राकृतिक ध्वनि की आवश्यकता हो सकती है।

वोकल विविधता: अपने स्रोत सामग्री का विस्तार करें

AI वोकल प्रशिक्षण में सबसे सामान्य गलतियों में से एक वोकल डेटा सेट में विविधता की कमी है। मशीन लर्निंग मॉडल केवल प्रदान की गई सामग्री से ही प्रशिक्षण ले सकते हैं, इसलिए सीमित डेटा सेट एक सीमित वोकल मॉडल का परिणाम होता है। स्पष्ट करने के लिए, मैंने ऐसे सबमिशन प्राप्त किए हैं जिनमें गायक एक ही गीत को बार-बार गा रहे हैं। हालांकि वे उस एक गाने पर शानदार लग सकते हैं, मुझे पता है कि वे ऊँची और नीची पिचों तक पहुँचने, अधिक तीव्र और नरम वोकल इन्फ्लेक्शन्स का प्रदर्शन करने में सक्षम हैं, जो उनके वोकल मॉडल में शामिल नहीं किए जाएंगे क्योंकि मशीन लर्निंग इस अतिरिक्त जानकारी तक पहुँच नहीं होती। इसके परिणामस्वरूप, यह AI वॉयस मॉडल के लिए बहुत सीमित उपयोग का मामला प्रदान करेगा।

विविधता लाने के लिए AI वॉयस बनाने के लिए, अपने प्रशिक्षण सामग्री में वोकल प्रदर्शन की एक विस्तृत श्रृंखला शामिल करें। यह विभिन्न पिचों, भावनात्मक अभिव्यक्तियों, और वोकल तकनीकों को कवर करना चाहिए, जिसमें चेस्ट और फाल्सेटो वोकल्स दोनों शामिल हैं, ताकि एक वास्तविक कलाकार की विविधता का अनुकरण किया जा सके। यद्यपि न्यूनतम आवश्यकता 15 मिनट ऑडियो है, मैं वोकलिस्ट की क्षमताओं की पूरी श्रृंखला को कैप्चर करने के लिए पूरे 30 मिनट का उपयोग करने की सिफारिश करता हूँ।

A sound mixer

खाली स्थान हटा दें

वोकल सबमिशन अक्सर गीतों के पूरे अकापेला संस्करण होते हैं। चूंकि मशीन लर्निंग प्रक्रिया केवल एक वोकल प्रदर्शन का विश्लेषण करने की परवाह करती है, लंबे खाली स्थान, जो एक पूर्ण गीत के वाद्य अनुभाग हो सकते हैं, अनावश्यक होते हैं और डेटा सेट में मूल्यवान समय लेते हैं। अपने AI वॉयस मॉडल को अनुकूलित करने के लिए, किसी भी गैर-वोकल अनुभाग को हटा दें और सुनिश्चित करें कि ऑडियो निरंतर हो, जैसा कि मैंने ऊपर अपने प्रारंभिक उदाहरण में दिखाया। इस दृष्टिकोण का उपयोग करने से प्रशिक्षण डेटा का अधिकतमकरण किया जाएगा और आपके मॉडल को यथासंभव यथार्थता बनाए रखने में मदद मिलेगी।

अपना ऑडियो सही मोनो के रूप में निर्यात करें

अंत में, हमेशा अपने वोकल स्टेम को सही मोनो ट्रैक के रूप में निर्यात करें। स्टेरियो ट्रैक सबमिट करना, भले ही रिकॉर्डिंग मोनो में हो, संवेदी डेटा को दो गुना कर देता है और प्रशिक्षण के लिए उपयोगी सामग्री की मात्रा को कम कर देता है। सर्वोत्तम वॉइस क्लोनिंग परिणामों को प्राप्त करने के लिए, अपने वोकल ट्रैक को अपलोड करने से पहले मोनो में बाउंस करके आपके मॉडल को प्रशिक्षित करने के लिए सामग्री की मात्रा को अधिकतम करें Kits.AI पर।

निष्कर्ष

इन सुझावों का पालन करके, आप सामान्य AI वोकल गलतियों से अवश्य बच सकते हैं और इस शक्तिशाली उपकरण की पूरी क्षमता को अनलॉक करने के साथ शुरू कर सकते हैं। याद रखें, AI एक रचनात्मक उपकरण नहीं है, यह एक निर्माता का उपकरण है। जैसे सभी नए उपकरण और उभरती तकनीक, इसमें एक सीखने की अवस्था है, लेकिन सही दृष्टिकोण के साथ, आपके संगीत में AI वोकल्स का समावेश नई संभावनाओं को खोल सकता है जो एक बार अकल्पनीय थीं।


-SK

सैम कियरनी एक निर्माता, संगीतकार और ध्वनि डिज़ाइनर हैं जो एवरग्रीन, CO में आधारित हैं।

आपके लिए अनुशंसित ब्लॉग पोस्ट