किट्स और डिस्क्रिप्ट: ऑडियो निर्माताओं के लिए एआई टूल्स
द्वारा लिखा गया
प्रकाशित किया गया
19 मार्च 2024
कृत्रिम बुद्धिमत्ता क्रांति के पिछले कुछ वर्षों में, दृश्य कलाकारों के लिए AI क्या कर सकता है, इस पर बहुत ध्यान दिया गया है। अरबों लोगों ने Dall-E, Midjourney, और Photoshop के जनरेटिव फिल उपकरण जैसे उपकरणों के साथ प्रयोग किया है ताकि AI के साथ चित्र बनाएँ.
लेकिन क्या आप जानते हैं कि ऑडियो परियोजनाओं के लिए समान उपकरण भी हैं? संगीतकारों, निर्माताओं, पॉडकास्टर्स, स्ट्रीमर, वीडियो संपादक, और अन्य हर कार्यप्रवाह के प्रत्येक चरण को बढ़ाने के लिए AI का उपयोग कर सकते हैं।
इस लेख में, हम दो सबसे लोकप्रिय AI ऑडियो उपकरणों पर नज़र डालेंगे: Kits, जो संगीत के लिए एक AI वोकल प्लेटफार्म है, और Descript, जो पॉडकास्ट के लिए एक AI-सक्षम ऑडियो संपादक है।
वोकल्स के लिए Kits AI उपकरण
Kits एक शक्तिशाली संगीत उत्पादन उपकरण है जो उच्च गुणवत्ता वाले ऑडियो बनाने के लिए AI का उपयोग करता है। Kits के साथ, आप एक गायक को दूसरे में बदल सकते हैं और एक गायक की आवाज़ की नकल कर सकते हैं। रचनात्मक अवसर अंतहीन हैं।
स्वर परिवर्तन
Kits Convert के चारों ओर बनाया गया है, जो एक गायक की आवाज़ को पूरी तरह से अलग में बदलता है। जबकि अन्य AI उपकरण यह बात भाषण के लिए करते हैं, Kits गाने के लिए इसे पहले पेश करने वाला है. परिणाम इतने अच्छे हैं कि वे पेशेवर गायकों के रूप में पास हो सकते हैं जो एक उच्च गुणवत्ता वाले स्टूडियो में रिकॉर्ड किए गए हैं, जिससे यह निर्माताओं के लिए एक अत्यधिक बहुपरकारी उपकरण बन जाता है।
बस एक फ़ाइल अपलोड करें या सीधे वेब ऐप में रिकॉर्ड करें। कुछ सेकंड में, आपका गाना एक नए गायक के साथ होगा!
आप उन्नत नियंत्रणों के साथ परिवर्तन को समायोजित कर सकते हैं:
बेहतर परिणामों के लिए अपनी रिकॉर्डिंग से इंस्ट्रुमेंटल, रिसोनेंस और डिले, और/या बैकिंग वोकल्स को हटाएं।
पिच शिफ्ट: पिच को 24 सेमीटोन तक ऊपर या नीचे बढ़ाएं।
परिवर्तन की ताकत: उत्पादन को अधिक उच्चारण और स्पष्टता देती है, लेकिन उच्च स्तर पर अप्रत्याशित परिणाम पैदा कर सकती है।
वॉल्यूम मिश्रण: इनपुट वॉल्यूम और मॉडल के बीच संतुलन को नियंत्रित करें। कम मान अधिक मूल गतिशीलता प्रकट करते हैं।
प्रारंभिक प्रसंस्करण प्रभाव: उत्पादन से पहले शोर, गड्ढा, और कठोरता को काटें, वॉल्यूम को चिकना करें, और/या ऑटोट्यून करें।
पोस्ट-प्रोसेसिंग प्रभाव: परिणाम पर कंप्रेसर, कोरस, रिसोनेंस, और/या डिले लागू करें।
स्वर प्रशिक्षण ट्यूटोरियल
Kits की सबसे भविष्यवादी विशेषता स्वर प्रशिक्षण है। बस एक ऑडियो फ़ाइल अपलोड करें और Kits गायक की आवाज़ का एक सही क्लोन बनाने के लिए एक AI मॉडल को प्रशिक्षित करता है. इस नए स्वर का उपयोग किसी भी परिवर्तन के लिए स्टॉक या ब्लेंडेड आवाज़ के बजाय किया जा सकता है (नीचे इसके बारे में अधिक जानकारी)।
Kits गायक के लिए उपलब्ध श्रेष्ठ आवाज़ क्लोनिंग उपकरण प्रदान करता है। अन्य AI उपकरण भाषण के लिए इसे पेश करते हैं, जिसमें Descript भी शामिल है, जिसके बारे में हम नीचे विस्तार से चर्चा करेंगे। हालाँकि, Descript इस फ़ंक्शन का उपयोग मुख्य रूप से गलतियों को सुधारने या सरल पाठ-से-भाषण उत्पादन के लिए करता है। Kits आपको परिवर्तन के लिए प्रशिक्षित आवाज़ मॉडल का आसानी से उपयोग करने की अनुमति देती है, जो एक बड़ा लाभ है।
स्वर को प्रशिक्षित करने के लिए, Kits किसी भी रिकॉर्ड की गई ऑडियो प्रारूप की अनुमति देता है। यह सबसे अच्छे परिणामों के लिए 10 मिनट की सिफारिश करता है, लेकिन एक घंटे तक स्वीकार करता है। (तुलना के लिए, Descript आपको आवाज़ टेम्पलेट के रूप में उपयोग करने के लिए एक विशेष स्क्रिप्ट पढ़ने की आवश्यकता होती है।) वहाँ से, बस एक नाम और फ़ोटो जोड़ें, फिर अपनी नई आवाज़ को प्रशिक्षित करें! इसे आपके आवाज़ पुस्तकालय में भविष्य के उपयोग के लिए सहेजा जाएगा।
स्वर पुस्तकालय
Kits अपने स्वर पुस्तकालय में 150+ कलाकारों की आवाज़ें प्रस्तुत करता है। प्रत्येक को इसके लिंग और शैली के अनुसार नामित किया गया है, जैसे पुरुष अफ्रीकी बीट या महिला बेडरूम पॉप. आप पुस्तकालय को पिच रेंज, लिंग, और शैली के अनुसार क्रमबद्ध कर सकते हैं, और यहां तक कि अन्य भाषाओं और विश्व संगीत शैलियों के लिए भी आवाज़ें हैं। ये सभी पूरी तरह से रॉयल्टी-मुक्त हैं, इसलिए आप उन्हें जैसा चाहें उपयोग कर सकते हैं।
अपने ध्वनि को और अनुकूलित करने के लिए, आप स्वर ब्लेंडर के साथ दो आवाज़ों को संयोजित कर सकते हैं। ब्लेंड रेशियो स्लाइडर नए मॉडल को प्रशिक्षित करने के लिए प्रत्येक आवाज़ का कितना उपयोग करना है, इसे नियंत्रित करता है।
इसके अलावा, Kits साधन जैसे गिटार, बास, सैक्सोफोन, और सेलो प्रदान करता है। यह आपको इंस्ट्रुमेंटल बनाने के लिए आसानी से अनुमति देता है: बस जल्दी से खुद को गाते या गुनगुनाते हुए रिकॉर्ड करें, फिर इसे एक इंस्ट्रूमेंट आवाज़ में परिवर्तित करें।
पाठ-से-भाषण
Kits 14 भाषाओं में पाठ-से-भाषण सुविधा भी प्रदान करता है, जिसका उपयोग वर्णन, वॉयसओवर, और अन्य बोले गए सामग्री के लिए किया जा सकता है। चूँकि Kits का स्वर पुस्तकालय गायन के लिए संतुलित है, परिणाम अन्य AIs की तुलना में अधिक प्राकृतिक होते हैं। अपनी स्क्रिप्ट दर्ज करें, एक पिच रेंज का चयन करें, और भाषण उत्पन्न करें। संपूर्ण स्वर पुस्तकालय का उपयोग किया जा सकता है, साथ ही मिश्रित और प्रशिक्षित आवाजें भी।
AI ऑडियो एन्हांसर्स
वोकल रिमूवर
Kits में एक और AI-नियंत्रित संगीत उपकरण वोकल रिमूवर है। एक गीत अपलोड करें और वोकल रिमूवर वोकल्स को इंस्ट्रुमेंटल और अन्य बैकग्राउंड शोर से अलग करता है। उन्नत सेटिंग्स आपको बैकिंग वोकल्स को हटाने, और रिसोनेंस, इको और शोर घटाने को टॉगल करने की अनुमति देती हैं। AI के साथ निर्मित, Kits का वोकल रिमूवर सामान्यतः पारंपरिक सॉफ़्टवेयर की तुलना में पेचीदगी के साथ वोकल्स को निकालने में बेहतर काम करता है, यहां तक कि जब समान ध्वनियाँ ओवरलैप होती हैं।
AI मास्टरिंग
मास्टरिंग संगीत उत्पादन कार्यप्रवाह का अंतिम चरण है। अंतिम ध्वनि को ठीक करने और यह सुनिश्चित करने के लिए कि व्यक्तिगत ट्रैक एक-दूसरे के साथ अच्छी तरह से काम करते हैं, संपीड़न, सीमित करना, ईक्यू, और अधिक लागू किया जाता है। यह ऐतिहासिक रूप से उत्पादन के सबसे कठिन और महंगे तत्वों में से एक रहा है, लेकिन Kits AI यहां तक कि नए निर्माताओं को सेकंडों में ट्रैक मास्टर करने की अनुमति देता है।
Kits छह पूर्व-निर्मित मास्टरिंग प्रीसेट प्रदान करता है:
हल्का और चमकीला
बास भारी
पंच और हवा
लश
टेप गोंद
एनालॉग गर्मी
चूंकि उपयोगकर्ता के अनुकूल प्रक्रिया केवल कुछ सेकंड लेती है, आप देख सकते हैं कि कौन सा बेहतर काम करता है। आप एक संदर्भ ट्रैक भी अपलोड कर सकते हैं, जिसकी आवाज़ Kits एक मॉडल के रूप में उपयोग करेगा।
Kits सिर्फ बाजार पर सबसे शक्तिशाली AI गायन उपकरण नहीं है, बल्कि आधुनिक संगीत निर्माताओं के लिए एक आवश्यक उपकरण है। यह प्रत्येक चरण को बढ़ाने के लिए AI का उपयोग करता है, जिससे आपको कम समय, कम पैसे, और अधिक रचनात्मकता के लिए बेहतर वोकल्स का उत्पादन करने की अनुमति मिलती है।
Descript: AI पॉडकास्ट संपादक
Descript आज पॉडकास्टर्स के लिए उपलब्ध सबसे शक्तिशाली उपकरणों में से एक है, जिसमें एक पाठ-आधारित पॉडकास्ट संपादक के चारों ओर निर्मित AI ऑडियो फ़ंक्शंस का एक समृद्ध सूट है। (Descript कुछ वीडियो सामग्री उपकरण भी प्रदान करता है, लेकिन हम यहां उन पर नहीं जाएंगे।)
रुकिए, पाठ-आधारित ऑडियो संपादक? हाँ, Descript आपकी ऑडियो को स्वचालित रूप से ट्रांसक्राइब करता है ताकि आप इसे एक दस्तावेज़ की तरह संपादित कर सकें, आपके परिवर्तन ऑडियो में परिलक्षित होते हैं। लंबे रिकॉर्डिंग्स कुछ सेकंड में ट्रांसक्राइब हो जाते हैं और क्लाउड में सुरक्षित रूप से संग्रहीत होते हैं और प्रत्येक वक्ता को स्वचालित रूप से लेबल किया जाता है। इसके अलावा, यह 22 भाषाओं में काम करता है। इस अनूठी उपयोगकर्ता अनुभव के शीर्ष पर वीडियो संपादन के लिए AI ऑडियो उपकरणों की एक विस्तृत श्रृंखला है:
AI आवाज़ें
Kits की तरह, Descript में स्टॉक आवाज़ें शामिल हैं, जिन्हें पाठ-से-भाषण के लिए उपयोग किया जा सकता है। कुल मिलाकर 21 हैं, जिनमें उनके स्वर का विवरण करने के लिए टैग हैं: पुरुष या महिला, युवा, युवा, या वृद्ध, साथ ही उच्चारण और शैलियाँ।
Descript में Kits में स्वर प्रशिक्षण के समान स्वर क्लोनिंग फ़ीचर भी है। दिलचस्प बात यह है कि Descript केवल आपको अपनी खुद की आवाज़ क्लोन करने की अनुमति देता है। इसे सत्यापित करने के लिए, आपको टेम्पलेट के रूप में विशेष स्क्रिप्ट पढ़ते हुए अपनी रिकॉर्डिंग करनी होगी। आपकी आवाज़ को पाठ-से-भाषण, साथ ही अपनी खुद की भाषा के भविष्य के ओवरडब्स के लिए उपयोग करने के लिए सहेजा जा सकता है।
किसी भी ट्रांसक्रिप्शन को फिर से उत्पन्न करें
फिर से उत्पन्न करें मूलतः एक मिनी आवाज क्लोन बनाता है (उपरोक्त वर्णित लंबे प्रक्रिया के बिना), फिर रिकॉर्डिंग ट्रांस्क्रिप्ट में चयनित पाठ को फिर से उत्पन्न करता है. इससे ऑडियो संपादनों की अनुमति मिलती है जो बिना AI के असंभव होतीं -- और यह शायद Descript की सबसे शक्तिशाली विशेषता है।
उदाहरण के लिए, मान लीजिए कि आप घर पर रिकॉर्ड कर रहे हैं और दरवाजे की घंटी बजती है। सामान्यतः, इस क्षण को काटना समय लेने वाला होगा, और इसे इतने अच्छे ढंग से करना कि श्रोता इसे न देखें, शायद असंभव होगा। लेकिन Descript के साथ, बस ट्रांसक्रिप्शन में क्षण को खोजें, उसे हाइलाइट करें, और "Replace With → Regenerate" पर क्लिक करें। AI-निर्मित भाषण मूल रिकॉर्डिंग के उस हिस्से पर सुचारू रूप से जुड़ जाएगा।
और यदि आप अपने रूममेट को दरवाजा खोलने के लिए बुलाते हैं? आप ट्रांस्क्रिप्ट से ऑफ-टॉपिक शब्दों को आसानी से हटा सकते हैं, लेकिन यह एक स्पष्ट डिस्कनेक्ट छोड़ देगा जिसे श्रोतागण सुन सकते हैं। बस splice के चारों ओर वाक्यांश को पुनः उत्पन्न करें और AI आवाज़ स्वर और तनाव का मिलान करेगा ताकि इसे पूरी तरह से छिपाया जा सके।
ओवरडब
रेप्लेस विद मेन्यू में फिर से उत्पन्न करने के ठीक नीचे ओवरडब है। AI आवाज़ का उपयोग संपादनों को चिकना करने के बजाय, ओवरडब का उपयोग नए शब्दों को पॉडकास्ट में डालने के लिए किया जाता है. यदि आप किसी शब्द का गलत उच्चारण करते हैं, एक पंक्ति को भटका देते हैं, या बस उतना स्पष्ट नहीं होते जितना चाहिए, तो आप तुरंत अवांछित हिस्से को काट सकते हैं और इसे AI ओवरडब के साथ बदल सकते हैं।
चूंकि Descript स्वचालित रूप से विभिन्न वक्ताओं को पहचानता है, ओवरडब स्वचालित रूप से सही वक्ता से मेल खा जाएगा। इसके अलावा, नया ऑडियो रिकॉर्डिंग के आस-पास के स्वर, बैकग्राउंड शोर और त्वरण से मेल खा जाएगा।
स्टूडियो साउंड
एक क्लिक के साथ, स्टूडियो साउंड के एल्गोरिदम किसी भी रिकॉर्डिंग को पेशेवर बनाते हैं. बस ऑडियो प्रभावों के तहत स्विच को टॉगल करें, और स्टूडियो साउंड आवाजों को बैकग्राउंड शोर से अलग करता है और दोनों को बढ़ाता है। इंटेन्सिटी स्लाइडर नियंत्रण करता है कि प्रभाव को कितनी मजबूती से लागू किया जाता है। आवाज़ को बढ़ाया जाएगा, इसलिए यहाँ तक कि एक त्वरित आईफोन रिकॉर्डिंग भी उच्च गुणवत्ता वाले माइक्रोफोन की तरह प्रतीत होगी। अपने वीडियो फ़ाइल को सही करें और साधारण, स्पष्ट कदमों में बैकग्राउंड शोर, हिज्जे, और कक्ष इको को हटा दें।
फिलर शब्द निकालना
हर पॉडकास्टर ने इसका अनुभव किया है: आप एक एपिसोड रिकॉर्ड करते हैं और सोचते हैं कि आपने इसे कुचल दिया है। लेकिन जब आप इसे सुनते हैं, आपका भाषण "जैसे,” “उम,” मृत हवा, और अन्य फीलर शब्दों से भरा होता है। ये छोटे-छोटे मामलों पर दुर्भाग्य से आपके सामने आने वाले प्रभाव को व्यापक बनाने का प्रभाव हो सकता है।
फिलर शब्द निकालना Descript में बनाया गया है, और इसकी बाकी सुविधाओं की तरह, इसका उपयोग करना बेहद सरल है। जब आपकी ऑडियो को ट्रांसक्राइब किया जाता है, तो फिलर शब्द स्वतः रेखांकित होते हैं। स्टार आइकन पर क्लिक करें, फिर अपने भाषण को साफ करने के लिए संपादन उपकरण का उपयोग करें जैसे "फिलर शब्दों को निकालें" और "शब्दों के बीच के गैप को संक्षिप्त करें"।
आपके लिए सबसे अच्छा AI उपकरण ढूँढना
Kits और Descript AI-सक्षम ऑडियो उत्पादन के अग्रभाग पर हैं। उनके उपकरण सरलता और सुंदरता से काम करते हैं ताकि आपके मौजूदा कार्यप्रवाह को बढ़ाया जा सके। शक्तिशाली उपकरण जैसे Kits का स्वर परिवर्तन और स्वर प्रशिक्षण और Descript का पाठ-आधारित संपादक नए प्रतिक्रियाशील संभावनाएँ खोलते हैं जो पहले कभी अस्तित्व में नहीं थीं। इसके अलावा, Kits में वोकल रिमूवर और AI मास्टरिंग और Descript में पुनः उत्पन्न करना और भरे हुए शब्दों को निकालने जैसी सुविधाएँ ऑडियो उत्पादन के सबसे समय लेने वाले और कठिन पहलुओं को समाप्त करती हैं। AI ऑडियो उपकरण आपको एक बेहतर निर्माता कैसे बनाएंगे?