वॉइस मॉडल निर्माण

नीचे दिए गए सुझावों का उपयोग करके उच्च-गुणवत्ता का डेटा सेट बनाकर सर्वोत्तम संभव वॉयस मॉडल बनाएं।

वॉइस मॉडल निर्माण

नीचे दिए गए सुझावों का उपयोग करके उच्च-गुणवत्ता का डेटा सेट बनाकर सर्वोत्तम संभव वॉयस मॉडल बनाएं।

वॉइस मॉडल निर्माण

नीचे दिए गए सुझावों का उपयोग करके उच्च-गुणवत्ता का डेटा सेट बनाकर सर्वोत्तम संभव वॉयस मॉडल बनाएं।

अपने डेटा सेट को कैसे बनाएं।

अपने डेटा सेट को कैसे बनाएं।

30-60 कुल मिनट की सूखी (कोई प्रभाव नहीं) और मोनोफोनिक (एक समय पर एक नोट) वोकल का संग्रह करें।

  • कोई रिवर्ब, डिले, कोरस, या वाद्ययंत्र नहीं,

  • कोई हारमोनी, लेयरिंग, डबलट्रैकिंग, स्टीरियो प्रभाव नहीं।

  • वोकल स्टाइल्स में कोई विविधता नहीं। जैसे, बस गाना या सिर्फ रैपिंग लेकिन दोनों नहीं।

  • कोई रिवर्ब, डिले, कोरस, या इंस्ट्रूमेंटल नहीं,

  • कोई हार्मनी, लेयरिंग, डबलट्रैकिंग, स्टेरियो प्रभाव नहीं।

  • गायन शैलियों में कोई भिन्नता नहीं। उदाहरण के लिए, केवल गाना या केवल रैपिंग लेकिन दोनों नहीं।

  • कोई रिवर्ब, डिले, कोरस, या वाद्य नहीं,

  • कोई हार्मनी, लेयरिंग, डबलट्रैकिंग, स्टीरियो इफेक्ट्स नहीं।

  • गायन शैलियों में कोई भिन्नता नहीं। जैसे कि बस गाना या बस रैपिंग लेकिन दोनों नहीं।

खराब गायकी

खराब गायकी

खराब गायकी

स्टीरियो, रिवर्ब, डिले

0:00/1:34

अच्छी गायकी

अच्छी गायकी

अच्छी गायकी

मोनो, साफ टोन, कम शोर

आपकी फ़ाइल साजिशपूर्वक तैयार की जा रही है।

अपनी फ़ाइलें कोई खामोशी और संगत वॉल्यूम के साथ एक 16-बिट हानिहीत ऑडियो फ़ाइल (.wav पसंद किया गया) के साथ निर्यात करें।

पहले: चुप्पी, असंतुलित वॉल्यूम स्तर

बाद: कटी हुई चुप्पी, संगत आवाज

जब आप अपनी आवाज़ों को संकलित कर लें, तो अगला चरण आपके फ़ाइलों को प्रशिक्षण के लिए तैयार करना है:

  • किसी भी अतिरिक्त चुप्पी को हटाएँ (हम अनुशंसा करते हैं कि इसे स्वचालित रूप से Audacity के साथ करें)

  • सच्चे मोनो के रूप में एक्सपोर्ट करें (L + R चैनलों के समान स्टेरियो के बजाय)

  • 16-बिट .wav के रूप में एक्सपोर्ट करें (कोई ऑडियो लंबाई आवश्यकताएँ नहीं हैं, एक 15-मिनट की फ़ाइल या 15 1-मिनट की फ़ाइलें हो सकती हैं)

  • किसी भी अतिरिक्त चुप्पी को हटाएं (हम अनुशंसा करते हैं कि इसे ऑडैसिटी के साथ स्वचालित रूप से करें)

  • सच्चे मोनो के रूप में निर्यात करें (बजाए समान L + R चैनलों के साथ स्टेरियो के)

  • 16-बिट .wav के रूप में निर्यात करें (कोई ऑडियो लंबाई आवश्यकताएँ नहीं हैं, यह एक 15-मिनट फ़ाइल या 15 1-मिनट फ़ाइलें हो सकती हैं)

  • किसी भी अतिरिक्त खामोशी को हटा दें (हम इसकी सिफारिश करते हैं कि इसे ऑडेसिटी के साथ स्वचालित रूप से किया जाए)

  • सच्चे मोनो के रूप में निर्यात करें (समान L + R चैनलों के साथ स्टीरियो के बजाय)

  • 16-बिट .wav के रूप में निर्यात करें (कोई ऑडियो लंबाई की आवश्यकताएँ नहीं हैं, यह एक 15-मिनट की फ़ाइल या 15 1-मिनट की फ़ाइलें हो सकती हैं)

ऑडैसिटी के साथ मोनो में परिवर्तित करने और शांति हटाने का तरीका

अपने डेटासेट के लिए किट्स.एआई ध्वनिक विभाजक उपकरण का उपयोग करें ताकि आप ध्वनियाँ अलग कर सकें।

गाने से वोकल को अलग करने के लिए, बस एक फ़ाइल को Kits.AI वोकल सेपरेटर टूल में अपलोड करें। यह अपने स्वयं के डेटासेट बनाने का एक आसान तरीका है।

Advanced dataset techniques.

उच्च गुणवत्ता के लिए अपने ऑडियो को पूर्व-प्रसंस्करण करें।

आपकी ऑडियो हो सकती है:

  • साफ EQd (कमी) रिकॉर्डिंग में गंदे या तेज़ फ़्रीक्वेंसी को कम करने के लिए

  • सुस्ती से पिच सही किया गया (धीमा हमला, मध्यम ताकत) जब तक कि यह वोकल शैली का एक महत्वपूर्ण हिस्सा न हो

  • दंशनरहित (De-essed) किसी भी तेज़ सिबिलेंस को कम करने के लिए

  • हल्का संकुचित (Compressed lightly) गतिशील रेंज को संतुलित करने/चोटी को कम करने के लिए (~4-5db की अधिकतम कमी)

  • स्टाइल में फिट करने के लिए बूस्टेड (अर्थातिक EQd)

  • -6db की चोटी तक सीमित और समग्र स्तर -6 और -12db के बीच।

  • 40hz–100hz के नीचे और 20khz के ऊपर की फ़्रीक्वेंसी को हटाने के लिए उच्च/निम्न पास किया गया

  • फेज़ का पुन: संतुलन

आपका ऑडियो हो सकता है:

  • सफाई EQd (उपयुक्त) रिकॉर्डिंग में मड या हार्श फ्रीक्वेंसियों को कम करने के लिए

  • सुस्त पिच सही (धीमी प्रतिक्रिया, मध्यम ताकत) जब तक कि यह वोकल स्टाइल का एक प्रमुख हिस्सा न हो

  • डी-एस्ड किसी भी हार्श सिबिलेंस को कम करने के लिए

  • हल्के से संकुचित करने के लिए डायनैमिक रेंज को समान करने के लिए/पीक को कम करने के लिए (~4-5db की गेन कमी अधिकतम)

  • वोकल के स्टाइल में फिट करने के लिए बढ़ाया गया (एडिटिव EQd)

  • -6db के पीक पर सीमित किया गया और कुल स्तर -6 और -12db के बीच।

  • 40hz–100hz के नीचे और 20khz के ऊपर की फ्रीक्वेंसी को हटाने के लिए हाई/लो पास किया गया

  • फेज फिर से संतुलित किया गया

आपकी ऑडियो हो सकती है:

  • स्पष्ट EQd (कटौती) जो रिकॉर्डिंग में मिट्टी या कठोर आवृत्तियों को कम करता है

  • सूक्ष्म स्वर-निर्धारित (धीमा हमला, मध्यम शक्ति) जब तक कि यह वोकल स्टाइल का एक महत्वपूर्ण हिस्सा न हो

  • डी-सेडेड जो किसी भी कठोर सिबिलेंस को कम करता है

  • हल्का संकुचित किया गया ताकि डायनामिक रेंज को संतुलित किया जा सके/पीक को कम किया जा सके (~4-5db की घटाने के साथ अधिकतम)

  • बढ़ाया गया (अर्थ जोड़ने वाला EQd) ताकि वोकल की शैली में फिट बैठ सके

  • एक पीक पर -6db तक सीमित किया गया और सामान्य स्तर -6 से -12db के बीच हो।

  • आवृत्तियों को 40hz–100hz और 20khz के ऊपर हटाने के लिए उच्च/निम्न पास किया गया

  • चरण फिर से संतुलित किया गया

अपनी खुद की आवाज़ें रिकॉर्ड करें।

अपने मॉडल के लिए वोकल रिकॉर्डिंग कर रहे हैं? यहां कुछ कॉन्फ़िगरेशन हैं जो आपको शुरुआत करने में मदद करेंगे।:

  • एक गुणवत्ता माइक्रोफोन का उपयोग करें जिसमें चौड़ा फ्रिक्वेंसी रेंज हो (40hz–20khz)

  • अपने रिकॉर्डिंग सैंपल दर को 48khz पर सेट करें और फ़ाइल प्रकार को लॉसलेस (.wav, .aiff, .flac) पर रखें

  • श्वास ध्वनियों को सीमित करें और एक साफ स्वर कैद करने की कोशिश करें (प्लोसीव्स से बचें, माइक्रोफोन को ऑफ-एक्सिस रखें और / या यदि सांस लेते हुए गा रहे हैं तो एक पॉप फ़िल्टर का उपयोग करें)

  • कमरे की परावृत्तियों से बचें (ऐसे कमरे में रिकॉर्ड करें जिसमें ध्वनि अवशोषित करने के लिए टुकड़े के फर्श और फर्नीचर जैसे नरम सतहें हों, माइक्रोफोन को दीवारों से दूर रखें, करीब आएं और अपने इनपुट गेन को कम करें)

  • अपने रिकॉर्डिंग वॉल्यूम की निगरानी करें और -6db dBFS से अधिक न जाएं। अपने स्तरों को -12 और -6 dBFS के बीच रखने की कोशिश करें।

  • अपने ऑडियो का निर्यात सच्चे मोनो में करें (बराबर L + R चैनलों के साथ स्टीरियो के बजाय)

  • ऑडियो पर कोई भी कठोर कट से बचें (ऑडियो को ज़ीरो क्रॉसिंग के पहले या बाद में काटने से आने वाले पॉप्स से बचने के लिए एक छोटा फेड आउट जोड़ें)

क्या आप अपने मॉडल के लिए वोकल्स रिकॉर्ड कर रहे हैं? यहां कुछ कॉन्फ़िगरेशन हैं जो आपको शुरुआत करने में मदद करेंगे।:

  • एक गुणवत्ता वाले माइक्रोफ़ोन का उपयोग करें जिसमें व्यापक फ़्रीक्वेंसी रेंज हो (40hz–20khz)

  • अपना रिकॉर्डिंग सैम्पल रेट 48khz और फ़ाइल प्रकार को लॉसलेस (.wav, .aiff, .flac) पर सेट करें

  • सांसों के आवाजों को सीमित करें और एक साफ स्वर पकड़ने की कोशिश करें (प्लोज़िव से बचें, माइक्रोफ़ोन को ऑफ-एक्सिस रखें और/या यदि आप सांस लेते समय गा रहे हैं तो एक पॉप फ़िल्टर का उपयोग करें)

  • कमरे की परावर्तनों से बचें (एक कमरे में रिकॉर्ड करें जिसमें मुलायम सतहें हों जैसे कालीन और फर्नीचर ताकि ध्वनि को सोखा जा सके, माइक्रोफोन को दीवारों से दूर रखें, निकटता बढ़ाएं और अपने इनपुट गेन को कम करें)

  • अपनी रिकॉर्डिंग वॉल्यूम की निगरानी करें और -6db dBFS से अधिक करने से बचें। अपने स्तरों को -12 और -6 dBFS के बीच रखने की कोशिश करें।

  • अपने ऑडियो को सच्चे मोनो के रूप में निर्यात करें (समान L + R चैनलों के साथ स्टीरियो के बजाय)

  • ऑडियो पर किसी भी कठोर कट से बचें (एक छोटा फेड आउट जोड़ें ताकि पॉप्स से बचा जा सके जो ऑडियो को जीरो क्रॉसिंग से पहले या बाद में काटने से आते हैं)

क्या आप अपने मॉडल के लिए वोकल रिकॉर्डिंग कर रहे हैं? यहां कुछ कॉन्फ़िगरेशन हैं जो आपको शुरू करने में मदद करेंगे।:

  • एक गुणवत्ता माइक्रोफोन का उपयोग करें जिसमें चौड़ी आवृत्ति रेंज हो (40hz–20khz)

  • अपनी रिकॉर्डिंग सैंपल दर 48khz और फ़ाइल प्रकार को लॉसलेस (.wav, .aiff, .flac) पर सेट करें

  • श्वास की आवाज़ों को सीमित करें और एक साफ़ स्वर कैप्चर करने का प्रयास करें (प्लोज़िव्स से बचें, माइक्रोफोन को ऑफ-एक्सिस रखें और/या अगर सांस लेने की शैली में गाते हैं तो पॉप फ़िल्टर का उपयोग करें)

  • कमरे के प्रतिबिंब से बचें (एक कमरे में रिकॉर्ड करें जिसमें नरम सतहें हों जैसे कैरपेट और फर्नीचर ध्वनि को अवशोषित करने के लिए, माइक्रोफोन्स को दीवारों से दूर रखें, करीब जाएं और अपने इनपुट गेन को कम करें)

  • अपनी रिकॉर्डिंग वॉल्यूम की निगरानी करें और -6db dBFS से अधिक न हो। अपने स्तर को -12 और -6 dBFS के बीच रखने का प्रयास करें।

  • अपने ऑडियो को सच्चे मोनो के रूप में एक्सपोर्ट करें (समान L + R चैनलों के साथ स्टीरियो के बजाय)

  • ऑडियो पर कोई हार्ड कट्स से बचें (ऑडियो को शून्य क्रॉसिंग से पहले या बाद में काटने से उत्पन्न होने वाले पॉप से बचने के लिए एक छोटा फेड-आउट जोड़ें)

सामग्री

अधिक विविधता, बेहतर।

अपने पूरे रेंज को कवर करने वाले उदाहरण होना अच्छा है। छाती, मिक्स, फालसेटो; बड़े और छोटे इंटरवल; grit और साफ नोट्स; आदि। जितनी अधिक विविधता, बेहतर।

आप अलग-अलग कीज में एक ही गाने का बोल सिंग कर सकते हैं, अपने रिपर्ट्वार से कुछ गाने, मूल गाने, आदि। ऑडियो कई फाइलों में या एक ही टेक में हो सकता है — जब तक गाने का समय 10–15 मिनट का हो।

Techniques

कैसे सच मोनो में परिवर्तित करें

मुक्त Audacity कार्यक्रम का उपयोग करके स्टीरियो फ़ाइलों को वास्तविक मोनो में परिवर्तित करें।

खामोशी को कैसे हटाएं

फ्री ऑडैसिटी प्रोग्राम का उपयोग करें एक एकपेला से चुप्पी हटाने के लिए।

(इस वीडियो में सेटिंग को कॉपी करें, लेकिन अनुभव करने की इजाजत है। अपने एकपेला के शोर स्तर पर बीच -20db और -40db के बीच एक थ्रेशोल्ड चुनें।)

अक्सर पूछे जाने वाले प्रश्न

प्रश्न: मॉडल प्रशिक्षण कितनी देर तक लेती है?

आपके डेटा के आकार के आधार पर, मॉडल प्रशिक्षण करने में 30 मिनट से लेकर कई घंटे तक लग सकते हैं! चिंता न करें - जब तक आपकी बनावट डैशबोर्ड पर प्रशिक्षण दिखा रहा हो, तब तक आपका मॉडल जल्द ही समाप्त हो जाएगा।

प्रश्न: मॉडल प्रशिक्षण कितनी देर तक लेती है?

आपके डेटा के आकार के आधार पर, मॉडल प्रशिक्षण करने में 30 मिनट से लेकर कई घंटे तक लग सकते हैं! चिंता न करें - जब तक आपकी बनावट डैशबोर्ड पर प्रशिक्षण दिखा रहा हो, तब तक आपका मॉडल जल्द ही समाप्त हो जाएगा।

प्रश्न: मॉडल प्रशिक्षण कितनी देर तक लेती है?

आपके डेटा के आकार के आधार पर, मॉडल प्रशिक्षण करने में 30 मिनट से लेकर कई घंटे तक लग सकते हैं! चिंता न करें - जब तक आपकी बनावट डैशबोर्ड पर प्रशिक्षण दिखा रहा हो, तब तक आपका मॉडल जल्द ही समाप्त हो जाएगा।

प्रश्न: मेरे मॉडल को अपलोड होने में बहुत समय लग रहा है! क्या हो रहा है?

अगर आप एक बड़ी फ़ाइल अपलोड कर रहे हैं, तो हमारे बैकएंड पर डेटा अपलोड करने में बहुत समय लगेगा। बस “अपलोड” दबाएं और धैर्य रखें - यह आखिरकार प्रक्रिया करेगा। अपलोड के दौरान पृष्ठ को ताज़ा न करें।

प्रश्न: मेरे मॉडल को अपलोड होने में बहुत समय लग रहा है! क्या हो रहा है?

अगर आप एक बड़ी फ़ाइल अपलोड कर रहे हैं, तो हमारे बैकएंड पर डेटा अपलोड करने में बहुत समय लगेगा। बस “अपलोड” दबाएं और धैर्य रखें - यह आखिरकार प्रक्रिया करेगा। अपलोड के दौरान पृष्ठ को ताज़ा न करें।

प्रश्न: मेरे मॉडल को अपलोड होने में बहुत समय लग रहा है! क्या हो रहा है?

अगर आप एक बड़ी फ़ाइल अपलोड कर रहे हैं, तो हमारे बैकएंड पर डेटा अपलोड करने में बहुत समय लगेगा। बस “अपलोड” दबाएं और धैर्य रखें - यह आखिरकार प्रक्रिया करेगा। अपलोड के दौरान पृष्ठ को ताज़ा न करें।

प्रश्न: यदि मुझे त्रुटि दिखाई दे तो मैं क्या करूं?

ए: अगर आप अपलोड के दौरान त्रुटि देखते हैं, तो हमसे हमारे बग फॉर्म! (bug form) पर संपर्क करें।

शुरू करें, मुफ्त।

अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं

शुरू करें, मुफ्त।

अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं

शुरू करें, मुफ्त।

अपने वोकल प्रोडक्शन वर्कफ़्लो को स्टूडियो-गुणवत्ता वाली एआई ऑडियो टूल्स के साथ सरल बनाएं