PCM ऑडियो क्या है? WAV और AIFF के पीछे का फ़ॉर्मेट
PCM कोई फ़ाइल प्रारूप नहीं है — यह एक विधि है
आइए एक आम गलतफहमी दूर करते हैं। जब आप कोई WAV या AIFF फ़ाइल देखते हैं, तो आप 'PCM फ़ाइल' नहीं देख रहे होते हैं। PCM बिल्कुल भी कोई फ़ाइल फ़ॉर्मेट नहीं है। यह पल्स-कोड मॉड्यूलेशन (Pulse-Code Modulation) का संक्षिप्त रूप है, जो एनालॉग ध्वनि को डिजिटल डेटा में बदलने की एक मूलभूत प्रक्रिया है। WAV और AIFF केवल कंटेनर हैं, वे रैपर हैं जो उस PCM-एन्कोडेड ऑडियो को धारण करते हैं। प्रक्रिया सीधी है। एक एनालॉग वेवफॉर्म को प्रति सेकंड हजारों बार सैंपल किया जाता है। फिर, प्रत्येक सैंपल के एम्प्लिट्यूड को मापा जाता है और एक संख्या दी जाती है। यह संख्याओं की एक लंबी धारा बनाता है जो मूल ध्वनि को उच्च गुणवत्ता के साथ फिर से बना सकती है। यह MP3 या AAC जैसे फ़ॉर्मेट के विपरीत है। वे फ़ॉर्मेट चालाक गणित का उपयोग करके उस ऑडियो डेटा को हटा देते हैं जिसे वे सोचते हैं कि आप नहीं सुनेंगे, जिससे फ़ाइलें छोटी हो जाती हैं। PCM पूरी तरह से ईमानदार है: यह सब कुछ रखता है। कोई शॉर्टकट नहीं। CD गुणवत्ता पर एक 10-सेकंड की स्टीरियो रिकॉर्डिंग (44,100 Hz सैंपल दर, 16-बिट गहराई, स्टीरियो) हमेशा 10 × 44,100 × 2 बाइट्स × 2 चैनल होगी, जो लगभग 1.76 MB कच्चे डेटा के बराबर होती है। यह अंतर केवल अकादमिक नहीं है; यह पेशेवर ऑडियो की भाषा है। जब कोई वीडियो एडिटर 'अनकम्प्रेस्ड ऑडियो' मांगता है, तो उनका मतलब PCM होता है। जब कोई मास्टेरिंग इंजीनियर 'लॉसलेस सोर्स फ़ाइलें' मांगता है, तो उनका मतलब PCM होता है। यह प्रो ऑडियो का आधार है, भले ही यह शब्द स्वयं पर्दे के पीछे रहता है, फ़ाइल आइकनों या एक्सपोर्ट मेनू पर शायद ही कभी दिखाई देता है।
सैंपल रेट और बिट डेप्थ: वे दो संख्याएँ जो PCM गुणवत्ता को परिभाषित करती हैं
कोई भी PCM ऑडियो फ़ाइल की गुणवत्ता दो संख्याओं से परिभाषित होती है: सैंपल रेट और बिट डेप्थ। आप उन्हें हर जगह ऑडियो सॉफ़्टवेयर में देखते हैं, और उनका अर्थ समझना आपके प्रोजेक्ट्स में महंगी गलतियों से बचने की कुंजी है। सैंपल रेट, जिसे हर्ट्ज़ (Hz) में मापा जाता है, आपको बताता है कि प्रति सेकंड ऑडियो सिग्नल के कितने स्नैपशॉट लिए जाते हैं। नाइक्विस्ट प्रमेय (Nyquist theorem) के अनुसार, आपको उस उच्चतम आवृत्ति से कम से कम दोगुना सैंपल रेट चाहिए जिसे आप रिकॉर्ड करना चाहते हैं। चूंकि मानव श्रवण लगभग 20,000 Hz तक सीमित है, 44,100 Hz CD मानक का जन्म हुआ, जो 40,000 Hz न्यूनतम से अधिक एक सुरक्षित मार्जिन प्रदान करता है। आप अन्य सामान्य दरें देखेंगे: 44,100 Hz (CD, स्ट्रीमिंग), 48,000 Hz (वीडियो उत्पादन), 88,200 Hz और 96,000 Hz (उच्च-रिज़ॉल्यूशन ऑडियो), और यहां तक कि अभिलेखीय कार्य के लिए 192,000 Hz भी। पॉडकास्ट के लिए 48,000 Hz का उपयोग करना कोई गलती नहीं है, लेकिन अगर आप इसे अन्य 44,100 Hz ट्रैक के साथ एक CD में बर्न करना चाहते हैं तो आपको इसे बाद में फिर से सैंपल करना होगा। बिट डेप्थ पूरी तरह से सटीकता के बारे में है। यह निर्धारित करता है कि प्रत्येक सैंपल में कितने संभावित वॉल्यूम स्तर हो सकते हैं। एक 16-बिट फ़ाइल 65,536 स्टेप्स प्रदान करती है। एक 24-बिट फ़ाइल चौंका देने वाले 16,777,216 स्टेप्स प्रदान करती है। यह सीधे डायनामिक रेंज में बदल जाता है — सबसे शांत और सबसे तेज़ संभावित ध्वनियों के बीच का अंतर। 16-बिट आपको लगभग 96 dB की रेंज देता है; 24-बिट 144 dB प्रदान करता है। वह अतिरिक्त हेडरूम ही कारण है कि पेशेवर 24-बिट पर रिकॉर्ड करते हैं: आप गेन को बढ़ाए बिना और शोर का जोखिम उठाए बिना शांत ध्वनियों को कैप्चर कर सकते हैं, फिर अंतिम उत्पाद को 16-बिट पर डिलीवर कर सकते हैं। 48,000 Hz / 24-बिट फ़ाइल को लापरवाही से 44,100 Hz / 16-बिट में परिवर्तित करने की आम गलती न करें। सैंपल रेट कन्वर्जन (SRC) एल्गोरिथम की गुणवत्ता ही सब कुछ है। एक खराब एल्गोरिथम आपके ऑडियो को खराब एलियासिंग आर्टिफैक्ट्स से भर देगा। जिस किसी ने भी दानेदार, फेज़ी डाउनसैंपल से जूझना पड़ा है, वह इस दर्द को जानता है। iZotope RX या Adobe Audition जैसे पेशेवर उपकरण डिफ़ॉल्ट रूप से उच्च-गुणवत्ता वाले SRC का उपयोग करते हैं। CocoConvert मानक एल्गोरिदम लागू करता है जो वेब और पॉडकास्टिंग के लिए पूरी तरह से ठीक हैं, लेकिन मैं साफ शब्दों में कहूंगा: यदि आप एक व्यावसायिक संगीत मास्टर तैयार कर रहे हैं, तो आपको समर्पित मास्टेरिंग सॉफ़्टवेयर का उपयोग करने की आवश्यकता है। कोई अपवाद नहीं।
WAV बनाम AIFF: दो कंटेनर, एक कोडेक
PCM के लिए दो मुख्य कंटेनर WAV और AIFF हैं। WAV, Microsoft और IBM की एक रचना, 1991 में Windows 3.1 के साथ आई। Apple का AIFF और भी पुराना है, जिसे 1988 में बनाया गया था और यह एक पहले के इलेक्ट्रॉनिक आर्ट्स फ़ॉर्मेट पर आधारित था। दोनों को अनकम्प्रेस्ड PCM ऑडियो रखने के लिए बनाया गया था। सभी व्यावहारिक उद्देश्यों के लिए, एक 44,100 Hz / 16-बिट स्टीरियो WAV और इसका AIFF समतुल्य ध्वनि में समान होते हैं क्योंकि अंदर का कच्चा PCM डेटा समान होता है। तो क्या अंतर है? यह ज्यादातर ऐतिहासिक और संरचनात्मक है। WAV लिटिल-एंडियन बाइट ऑर्डरिंग का उपयोग करता है, जबकि AIFF बिग-एंडियन का उपयोग करता है। यह PowerPC Macs और x86 PCs के दिनों में मायने रखता था, लेकिन आज के सॉफ़्टवेयर को इसकी परवाह नहीं है और यह दोनों को बिना किसी समस्या के संभालता है। अधिक प्रासंगिक अंतर मेटाडेटा है। WAV में BWF (ब्रॉडकास्ट वेव फ़ॉर्मेट) एक्सटेंशन है, जो फिल्म और टीवी के काम के लिए एक शक्तिशाली उपकरण है जो महत्वपूर्ण टाइमकोड और सीन डेटा को एम्बेड करता है। AIFF के अपने मेटाडेटा चंक होते हैं, और AIFF-C नामक एक प्रकार तकनीकी रूप से कंप्रेस्ड ऑडियो रख सकता है, हालांकि आप इसे शायद ही कभी देखेंगे। यहाँ व्यावहारिक विवरण है: विंडोज ऐप्स WAV की ओर झुकाव रखते हैं। Apple का Logic Pro डिफ़ॉल्ट रूप से AIFF का उपयोग करता है। Premiere Pro और DaVinci Resolve जैसे प्रो वीडियो उपकरण खुशी-खुशी दोनों को स्वीकार करते हैं। मेरी सलाह? यदि आप किसी क्लाइंट को ऑडियो भेज रहे हैं और आपको यकीन नहीं है कि वे क्या उपयोग करते हैं, तो एक WAV भेजें। यह एक सार्वभौमिक मानक के सबसे करीब है। बस याद रखें, ध्वनि गुणवत्ता के मामले में एक दूसरे से 'बेहतर' नहीं है जब वे दोनों समान लीनियर PCM डेटा धारण कर रहे हों।
आपके वर्कफ़्लो में PCM ऑडियो वास्तव में कहाँ रहता है
आपको यह जानकर आश्चर्य हो सकता है कि आप कितनी बार पहले से ही PCM ऑडियो के साथ काम कर रहे हैं। यह अधिकांश मीडिया वर्कफ़्लो का अदृश्य कार्यसाधक है। यह जानना कि यह कहाँ रहता है, आपको यह तय करने में मदद करता है कि कब परिवर्तित करना है और, उतना ही महत्वपूर्ण, कब चीजों को वैसे ही छोड़ देना है। वीडियो उत्पादन में, MXF, ProRes, और DNxHD जैसी पेशेवर वीडियो फ़ाइलों के अंदर का ऑडियो लगभग हमेशा 48,000 Hz / 24-बिट PCM होता है। Premiere Pro से वह अंतिम एक्सपोर्ट (File > Export > Media) एक महत्वपूर्ण क्षण होता है: एडिटर यह चुनता है कि शुद्ध PCM को रखना है या इसे AAC जैसी किसी चीज़ में कंप्रेस करना है। BBC (R/68 के तहत) या Netflix जैसे प्रमुख ब्रॉडकास्टर्स या स्ट्रीमर्स के लिए, कोई विकल्प नहीं है — उनकी डिलीवरी स्पेसिफिकेशंस PCM की मांग करती हैं। संगीत स्टूडियो में, सब कुछ PCM होता है। Ableton Live, Logic Pro, और Pro Tools जैसे DAWs इसी में जीते और सांस लेते हैं। उदाहरण के लिए, Ableton Live 11 आपके प्रोजेक्ट के सैंपल रेट (Preferences > Audio में सेट) पर 32-बिट फ्लोट WAV फ़ॉर्मेट में रिकॉर्ड करने के लिए डिफ़ॉल्ट होता है। यह विशेष PCM वैरिएंट फ्लोटिंग-पॉइंट संख्याओं का उपयोग करता है, जो इंजीनियरों को मिक्सिंग के दौरान भारी हेडरूम देता है और क्लिपिंग को रोकता है। एक बार मिक्स हो जाने के बाद, उन फ़ाइलों को अंतिम रिलीज़ के लिए मानक 16-बिट या 24-बिट इंटीजर PCM में परिवर्तित किया जाता है। लंबे समय तक स्टोरेज के लिए, PCM ही राजा है। आर्काइव, लाइब्रेरी और ब्रॉडकास्टर PCM WAV या AIFF चुनते हैं क्योंकि यह भविष्य-प्रूफ है। कोई मालिकाना कोडेक नहीं है जो पुराना हो सकता है। 2001 में बनी एक MP3 2024 एनकोडर के साथ बनी MP3 से अलग लग सकती है, लेकिन 1991 की एक PCM फ़ाइल आज भी बिट-फॉर-बिट समान है। यही कारण है कि लाइब्रेरी ऑफ कांग्रेस ऑडियो संरक्षण के लिए PCM WAV पर भरोसा करती है। यहां तक कि उपभोक्ता पक्ष पर भी, यह मौजूद है। यदि आप Apple के Music.app में 'AIFF Encoder' का उपयोग करके एक CD रिप करते हैं, तो आपको PCM AIFF फ़ाइलें मिलती हैं। यदि आप WAV में रिप करने के लिए Windows Media Player का उपयोग करते हैं, तो आपको PCM WAV मिलता है। दोनों ही मामलों में, आपने डिस्क की एक सही, दोषरहित प्रतिलिपि बनाई है।
PCM ऑडियो को परिवर्तित करना: क्या बदलता है और क्या नहीं
PCM फ़ॉर्मेट के बीच स्विच करना, जैसे WAV से AIFF, केवल उस बॉक्स को बदलना है जिसमें ऑडियो आता है। ऑडियो डेटा स्वयं अछूता रहता है। यह पूरी तरह से दोषरहित ऑपरेशन है, चाहे आप CocoConvert का उपयोग करें या कोई अन्य उपकरण। आप बिना किसी गुणवत्ता हानि के एक फ़ाइल को WAV से AIFF और वापस हजार बार पलट सकते हैं। PCM से MP3, AAC, या OGG Vorbis जैसे कंप्रेस्ड फ़ॉर्मेट में जाना एकतरफा रास्ता है। यह एक लॉसी प्रक्रिया है। एनकोडर साइकोएकॉस्टिक मॉडल का उपयोग करके उस डेटा को हटा देता है जिसे वह मानता है कि आप मिस नहीं करेंगे। उच्च बिटरेट पर (जैसे 320 kbps MP3 या 256 kbps AAC), अधिकांश लोगों को कोई अंतर सुनाई नहीं देगा। लेकिन कम बिटरेट पर, 128 kbps और उससे कम पर, आपको बदसूरत आर्टिफैक्ट्स सुनाई देने लगेंगे, खासकर झंकार (cymbals) जैसी तीखी ध्वनियों पर। वह क्षति स्थायी है। आप उसे वापस नहीं पा सकते। उस MP3 को वापस WAV फ़ाइल में बदलने से आपको केवल एक बड़ी फ़ाइल मिलती है जिसमें वही क्षतिग्रस्त ऑडियो होता है। हाँ, CocoConvert एक MP3 को वापस WAV में परिवर्तित कर सकता है। ऑपरेशन तकनीकी रूप से वैध है और फ़ाइल काम करेगी। लेकिन स्पष्ट रूप से कहें: यह गुणवत्ता में सुधार नहीं करता है। ऑडियो गुणवत्ता अभी भी मूल MP3 द्वारा सीमित है। आप केवल 128 kbps गुणवत्ता वाले ऑडियो को एक बहुत बड़ी फ़ाइल में डाल रहे हैं। ऐसा करने का एकमात्र अच्छा कारण संगतता के लिए है, यदि आप पुराने सॉफ़्टवेयर या हार्डवेयर के साथ काम कर रहे हैं जो WAV फ़ाइलों की मांग करता है। कभी भी यह सोचकर ऐसा न करें कि आप खोई हुई गुणवत्ता 'पुनर्प्राप्त' कर रहे हैं। जब आप किसी PCM फ़ाइल की सैंपल दर या बिट डेप्थ बदल रहे होते हैं, तो रूपांतरण सॉफ़्टवेयर की गुणवत्ता महत्वपूर्ण हो जाती है। उदाहरण के लिए, 96,000 Hz से 44,100 Hz तक जाना एलियासिंग को रोकने के लिए एक लो-पास फ़िल्टर की आवश्यकता होती है, और विभिन्न उपकरण इसे सफलता के अलग-अलग स्तरों के साथ करते हैं। किसी भी चीज़ के लिए जिसमें महत्वपूर्ण श्रवण की आवश्यकता होती है, आपको वास्तव में एक शीर्ष-स्तरीय SRC एल्गोरिथम वाले समर्पित ऑडियो सॉफ़्टवेयर का उपयोग करना चाहिए।
PCM के प्रकार जिनसे आपका सामना होगा: फ़्लोट, LPCM, और DPCM
साधारण वैनिला PCM ही एकमात्र प्रकार नहीं है। आपको कुछ भिन्नताएं मिलेंगी, और यह जानना अच्छा है कि वे क्या हैं और कब वे मायने रखती हैं। आधुनिक उत्पादकों के लिए सबसे महत्वपूर्ण प्रकार 32-बिट फ़्लोट PCM (जिसे IEEE 754 फ़्लोट भी कहा जाता है) है। इंटीजर्स के बजाय, यह सैंपल मानों को फ्लोटिंग-पॉइंट संख्याओं के रूप में संग्रहीत करता है। Ableton Live, Pro Tools, या FL Studio जैसे DAW के अंदर यह एक बड़ी बात है क्योंकि यह ऑडियो स्तरों को वास्तव में क्लिपिंग के बिना अधिकतम से 'अधिक' जाने की अनुमति देता है, जिससे आपको मिक्स के दौरान अविश्वसनीय लचीलापन मिलता है। ये फ़ाइलें 24-बिट इंटीजर PCM (4 बाइट्स प्रति सैंपल बनाम 3 बाइट्स) से बड़ी होती हैं, और जबकि अधिकांश आधुनिक सॉफ़्टवेयर उन्हें चला सकते हैं, आप उन्हें अंतिम डिलीवरी के लिए लगभग हमेशा 24-बिट या 16-बिट इंटीजर फ़ाइल में परिवर्तित कर देंगे। आपको LPCM शब्द दिखाई दे सकता है, जिसका अर्थ लीनियर PCM है। इससे भ्रमित न हों; यह उस मानक PCM का सिर्फ एक अधिक विशिष्ट नाम है जिसकी हम चर्चा कर रहे हैं, जहाँ वॉल्यूम स्टेप्स सभी समान होते हैं। 'लीनियर' भाग इसे टेलीफोनी में उपयोग किए जाने वाले A-लॉ और μ-लॉ (mu-लॉ) एन्कोडिंग जैसे लॉगरिदमिक PCM प्रकारों से अलग करने के लिए है। वे चालाक संपीड़न योजनाएं हैं जिनका उपयोग मानव भाषण को छोटे 8-बिट सैंपल में निचोड़ने के लिए किया जाता है। यदि आपको कभी कोई अजीब .au फ़ाइल या किसी फ़ोन सिस्टम से WAV मिलता है, तो यह इनमें से एक हो सकता है। आपको इसे संपादित करने से पहले मानक लीनियर PCM WAV में परिवर्तित करने की आवश्यकता होगी, जिसे CocoConvert संभाल सकता है। अंत में, DPCM और उसका चचेरा भाई ADPCM है। ये हल्के संपीड़न फ़ॉर्मेट हैं जो पूर्ण मान के बजाय ऑडियो सैंपल के *अंतर* को संग्रहीत करते हैं। आपको कुछ वीडियो गेम ऑडियो और पुरानी मल्टीमीडिया फ़ाइलों में ADPCM मिलेगा। भले ही इसके नाम में 'PCM' है, यह दोषरहित (lossless) नहीं है। उदाहरण के लिए, IMA ADPCM WAV फ़ाइलें समान सैंपल रेट और बिट डेप्थ पर एक सच्चे लीनियर PCM फ़ाइल की तुलना में काफी कम स्पष्ट लगेंगी।
सामान्य उपयोग के मामलों के लिए सही PCM सेटिंग्स चुनना
बड़ी संख्याएँ हमेशा बेहतर नहीं होतीं। सही PCM सेटिंग्स चुनना समझदारी की बात है: अपने फ़ॉर्मेट को अपने अंतिम गंतव्य से मिलाएं और जहाँ गुणवत्ता मायने रखती है, वहाँ उसे बनाए रखें। स्ट्रीमिंग प्लेटफॉर्म (Spotify, Apple Music, Tidal) पर संगीत वितरण के लिए: 44,100 Hz पर बने रहें। मानक डिलीवरी के लिए एक 16-बिट स्टीरियो WAV डिलीवर करें, या यदि आप एक हाई-रेस टियर को लक्षित कर रहे हैं तो एक 44,100 Hz / 24-बिट WAV डिलीवर करें। Spotify को 96,000 Hz फ़ाइल भेजना व्यर्थ है; उनकी आंतरिक एन्कोडिंग पाइपलाइन 44,100 Hz / 16-बिट तक स्वीकार करती है, इसलिए आपको कुछ भी हासिल नहीं होता है। Apple Music का लॉसलेस टियर अधिक लचीला है, जो 44,100 Hz या 48,000 Hz पर 24-बिट फ़ाइलों को स्वीकार करता है। वीडियो उत्पादन और प्रसारण के लिए: यह आसान है। लगातार 48,000 Hz / 24-बिट PCM का उपयोग करें। यह वैश्विक मानक है। शुरू से अंत तक 48k में काम करके, जब आपका ऑडियो अंततः वीडियो के साथ सिंक होता है, जो लगभग सार्वभौमिक रूप से 48,000 Hz पर चलता है, तो आप किसी भी खराब सैंपल रेट रूपांतरण से बचते हैं। पॉडकास्टिंग और वॉइस कंटेंट के लिए: 44,100 Hz / 16-बिट WAV पर्याप्त है। आपका होस्ट वैसे भी इसे MP3 या AAC में फिर से एन्कोड करेगा, इसलिए आपका काम उनके एनकोडर को काम करने के लिए सबसे अच्छी संभव स्रोत सामग्री देना है। 192,000 Hz पर एक पॉडकास्ट रिकॉर्ड करना शुद्ध अतिरेक है और श्रोता को कोई लाभ नहीं देता है। अभिलेखीय और संरक्षण के लिए: 96,000 Hz / 24-बिट PCM WAV सबसे उपयुक्त है। यह स्टोरेज के दृष्टिकोण से व्यावहारिक रहते हुए बड़ी मात्रा में विवरण कैप्चर करता है। लाइब्रेरी ऑफ कांग्रेस और अधिकांश राष्ट्रीय अभिलेखागार एक कारण से इस रेंज को निर्दिष्ट करते हैं। रोजमर्रा के रूपांतरणों के लिए — WAV को AIFF में बदलना, सैंपल रेट समायोजित करना, या डिलीवरी के लिए कंप्रेस्ड फ़ाइलें बनाना — CocoConvert आपके ब्राउज़र में ही काम कर देता है। किसी इंस्टॉलेशन की आवश्यकता नहीं। लेकिन अत्यधिक विशिष्ट कार्य के लिए, जैसे मास्टेरिंग-ग्रेड SRC या BWF मेटाडेटा संरक्षण के साथ ब्रॉडकास्ट फ़ाइलों की बैच प्रोसेसिंग, आपको पेशेवर के टूलकिट तक पहुंचना होगा: iZotope RX या Adobe Audition। एक पेशेवर होने का एक हिस्सा यह जानना है कि काम के लिए किस उपकरण का उपयोग करना है, और किसी भी उपकरण की सीमाओं को समझना, जिसमें यह भी शामिल है।