什么是 PCM 音频?WAV 和 AIFF 背后的格式
PCM 不是文件格式——它是一种方法
我们先来澄清一个常见的误解。当你看到 WAV 或 AIFF 文件时,你看到的并不是一个所谓的“PCM 文件”。PCM 根本就不是一种文件格式。它代表脉冲编码调制(Pulse-Code Modulation),是将模拟声音转换为数字数据的基本过程。WAV 和 AIFF 只是容器,是承载 PCM 编码音频的外壳。 这个过程很简单。模拟波形每秒被采样数千次。然后,测量每个采样的振幅并为其分配一个数字。这会创建一长串数字,可以高保真地重建原始声音。 这与 MP3 或 AAC 等格式正好相反。这些格式使用巧妙的算法来丢弃它们认为你听不到的音频数据,从而使文件更小。PCM 则非常“诚实”:它保留了一切。不走捷径。一段 10 秒的 CD 质量立体声录音(44,100 Hz 采样率,16 位深度,立体声)始终是 10 × 44,100 × 2 字节 × 2 通道,这大约是 1.76 MB 的原始数据。 这种区别不仅仅是学术上的;它是专业音频的通用语言。当视频编辑要求“未压缩音频”时,他们指的是 PCM。当母带工程师要求“无损源文件”时,他们指的也是 PCM。它是专业音频的基础,即使这个术语本身很少出现在文件图标或导出菜单中,默默无闻。
采样率和位深度:定义 PCM 质量的两个关键数字
有两个数字定义了任何 PCM 音频文件的质量:采样率和位深度。你在音频软件中随处可见它们,理解它们的含义是避免项目出现昂贵错误的秘诀。 采样率,以赫兹(Hz)为单位,它告诉你每秒对音频信号进行多少次“快照”。根据奈奎斯特定理,你需要一个至少是你想要录制最高频率两倍的采样率。由于人耳的听力上限约为 20,000 Hz,因此诞生了 44,100 Hz 的 CD 标准,这比 40,000 Hz 的最低要求留出了安全裕度。你还会看到其他常见的采样率:44,100 Hz(CD、流媒体)、48,000 Hz(视频制作)、88,200 Hz 和 96,000 Hz(高分辨率音频),甚至 192,000 Hz 用于档案工作。播客使用 48,000 Hz 并非错误,但如果你想将其与 44,100 Hz 的其他音轨一起刻录到 CD 上,你以后就必须重新采样。 位深度则关乎精度。它决定了每个采样可以有多少种可能的音量级别。一个 16 位文件提供 65,536 个步长。一个 24 位文件则提供惊人的 16,777,216 个步长。这直接转化为动态范围——即最安静和最响亮声音之间的差异。16 位提供大约 96 dB 的范围;24 位提供 144 dB。正是这种额外的动态余量,让专业人士选择 24 位录音:你可以在不大幅提高增益和冒噪音风险的情况下捕捉安静的声音,然后在最终交付时将其转换为 16 位。 不要犯那种随意将 48,000 Hz / 24 位文件转换为 44,100 Hz / 16 位文件的常见错误。采样率转换(SRC)算法的质量至关重要。一个糟糕的算法会让你的音频充斥着恼人的混叠失真。任何与颗粒感强、相位失真的降采样搏斗过的人都深知这种痛苦。iZotope RX 或 Adobe Audition 等专业工具默认使用高质量的 SRC。CocoConvert 应用的标准算法对于网络和播客来说完全没问题,但我直言不讳:如果你正在准备商业音乐母带,你必须使用专业的母带处理软件。没有例外。
WAV vs. AIFF:两种容器,一种编解码器
PCM 的两种主要容器是 WAV 和 AIFF。WAV 是微软和 IBM 的产物,于 1991 年随 Windows 3.1 一同问世。苹果的 AIFF 甚至更早,创建于 1988 年,基于更早的 Electronic Arts 格式。两者都是为存储未压缩的 PCM 音频而构建的。从所有实际用途来看,一个 44,100 Hz / 16 位立体声 WAV 文件和其等效的 AIFF 文件在声音上是相同的,因为内部的原始 PCM 数据是一样的。 那么区别是什么呢?主要是历史和结构上的。WAV 使用小端字节序,而 AIFF 使用大端字节序。这在 PowerPC Mac 和 x86 PC 时代很重要,但今天的软件根本不在乎,都能轻松处理两者。更相关的区别在于元数据。WAV 拥有 BWF(广播波形格式)扩展,这是电影和电视工作的强大工具,它嵌入了关键的时间码和场景数据。AIFF 有自己的元数据块,而一个名为 AIFF-C 的变体理论上可以包含压缩音频,尽管你在实际应用中几乎看不到。 实际情况是:Windows 应用程序倾向于 WAV。苹果的 Logic Pro 默认使用 AIFF。Premiere Pro 和 DaVinci Resolve 等专业视频工具都能愉快地接受两者。我的建议是?如果你要将音频发送给客户,但不确定他们使用什么,那就发送 WAV。它最接近通用标准。请记住,当它们都包含相同的线性 PCM 数据时,在音质方面,两者之间并没有“更好”一说。
PCM 音频在你的工作流程中实际存在的位置
你可能会惊讶于你已经多么频繁地在使用 PCM 音频。它是大多数媒体工作流程中无形的“主力军”。了解它的存在位置有助于你决定何时转换,以及同样重要的是,何时保持原样。 在视频制作中,MXF、ProRes 和 DNxHD 等专业视频文件内部的音频几乎总是 48,000 Hz / 24 位 PCM。从 Premiere Pro 进行的最终导出(文件 > 导出 > 媒体)是一个关键时刻:编辑选择是保留原始 PCM 还是将其压缩为 AAC 等格式。对于 BBC(根据 R/68 规范)等主要广播公司或 Netflix 等流媒体平台,没有选择——他们的交付规范要求使用 PCM。 在音乐工作室中,一切都是 PCM。Ableton Live、Logic Pro 和 Pro Tools 等数字音频工作站(DAW)都离不开它。例如,Ableton Live 11 默认以你项目采样率的 32 位浮点 WAV 格式进行录音(在“偏好设置”>“音频”中设置)。这种特殊的 PCM 变体使用浮点数,这在混音时为工程师提供了巨大的动态余量,并防止了削波。混音完成后,这些文件会转换为标准的 16 位或 24 位整数 PCM,用于最终发布。 对于长期存储,PCM 为王。档案馆、图书馆和广播公司选择 PCM WAV 或 AIFF,因为它经得起时间的考验。没有专有编解码器会过时。2001 年制作的 MP3 可能与 2024 年编码器制作的 MP3 听起来不同,但 1991 年的 PCM 文件今天仍然是逐位相同的。这就是为什么美国国会图书馆将 PCM WAV 作为音频保存的信赖之选。 即使在消费者层面,它也无处不在。如果你使用 Apple Music.app 中的“AIFF 编码器”抓取 CD,你将获得 PCM AIFF 文件。如果你使用 Windows Media Player 抓取为 WAV,你将获得 PCM WAV。在这两种情况下,你都创建了光盘的完美无损副本。
转换 PCM 音频:哪些会变,哪些不会变
在 PCM 格式之间切换,比如从 WAV 到 AIFF,只是改变了音频数据的“盒子”。音频数据本身并未触及。这是一个完全无损的操作,无论你使用 CocoConvert 还是任何其他工具。你可以将文件从 WAV 转换为 AIFF 再转回来一千次,而不会有丝毫质量损失。 从 PCM 转换为 MP3、AAC 或 OGG Vorbis 等压缩格式是一条单行道。这是一个有损过程。编码器使用心理声学模型来丢弃它认为你不会错失的数据。在高比特率下(例如 320 kbps MP3 或 256 kbps AAC),大多数人不会听到区别。但在较低比特率下,例如 128 kbps 及以下,你就会开始听到难听的失真,尤其是在镲片等尖锐声音上。这种损坏是永久性的。你无法挽回。将该 MP3 转换回 WAV 文件只会给你一个包含相同受损音频的大文件。 是的,CocoConvert 可以将 MP3 转换回 WAV。这个操作在技术上是有效的,文件也能正常工作。但我们要明确:这并不会提高音质。音频质量仍然受限于原始 MP3。你只是将 128 kbps 质量的音频放入一个大得多的文件中。这样做的唯一正当理由是为了兼容性,如果你正在使用需要 WAV 文件的旧软件或硬件。千万不要以为你在“恢复”丢失的质量而这样做。 当你改变 PCM 文件的采样率或位深度时,转换软件的质量变得至关重要。例如,从 96,000 Hz 降到 44,100 Hz 需要一个低通滤波器来防止混叠,而不同的工具在处理这方面有不同程度的成功。对于任何需要进行关键监听的工作,你真的应该使用带有顶级 SRC 算法的专用音频软件。
你会遇到的 PCM 变体:浮点型、LPCM 和 DPCM
普通的 PCM 并非唯一的“口味”。你会遇到一些变体,了解它们是什么以及何时重要是很有益的。 对于现代制作人来说,最重要的变体是 32 位浮点 PCM(也称为 IEEE 754 浮点)。它不存储整数,而是将采样值存储为浮点数。这在 Ableton Live、Pro Tools 或 FL Studio 等 DAW 中意义重大,因为它允许音频电平“超出”最大值而不会实际削波,在混音过程中为你提供了难以置信的灵活性。这些文件比 24 位整数 PCM 更大(每采样 4 字节 vs. 3 字节),尽管大多数现代软件可以播放它们,但你几乎总是会将其转换为 24 位或 16 位整数文件用于最终交付。 你可能会看到 LPCM 这个术语,它代表线性 PCM。不要被它迷惑;它只是我们一直在讨论的标准 PCM 的一个更具体的名称,其中音量步长都是相等的。‘线性’部分是为了将其与电话系统中使用的对数 PCM 变体(如 A 律和 μ 律(mu 律)编码)区分开来。这些是巧妙的压缩方案,用于将人类语音压缩到微小的 8 位采样中。如果你收到一个奇怪的 .au 文件或来自电话系统的 WAV 文件,它可能就是其中之一。在编辑之前,你需要将其转换为标准的线性 PCM WAV,CocoConvert 可以处理这种转换。 最后,还有 DPCM 及其“表亲”ADPCM。这些是轻量级压缩格式,它们存储音频采样之间的*差异*,而不是完整的值。你会在一些视频游戏音频和较旧的多媒体文件中找到 ADPCM。即使它的名字中包含‘PCM’,它也不是无损的。例如,IMA ADPCM WAV 文件听起来会明显不如相同采样率和位深度下的真正线性 PCM 文件清晰。
为常见用例选择正确的 PCM 设置
数字越大不一定越好。选择正确的 PCM 设置在于“聪明”:将你的格式与最终目的地匹配,并在关键之处保持质量。 对于流媒体平台(Spotify、Apple Music、Tidal)的音乐分发:坚持使用 44,100 Hz。标准交付使用 16 位立体声 WAV,如果你目标是高分辨率级别,则使用 44,100 Hz / 24 位 WAV。向 Spotify 发送 96,000 Hz 文件毫无意义;他们的内部编码流程只接受最高 44,100 Hz / 16 位的音频,所以你什么也得不到。Apple Music 的无损级别更灵活,接受 44,100 Hz 或 48,000 Hz 的 24 位文件。 对于视频制作和广播:这很简单。始终使用 48,000 Hz / 24 位 PCM。这是全球标准。从头到尾都使用 48k 进行工作,可以避免当你的音频最终与视频同步时出现任何恼人的采样率转换,因为视频几乎普遍运行在 48,000 Hz。 对于播客和语音内容:44,100 Hz / 16 位 WAV 就足够了。你的主机反正会将其重新编码为 MP3 或 AAC,所以你的任务是为他们的编码器提供尽可能最好的源材料。以 192,000 Hz 录制播客纯属过度杀伤(overkill),对听众毫无益处。 对于档案和保存:96,000 Hz / 24 位 PCM WAV 恰到好处。它捕捉了大量的细节,同时从存储角度来看也切实可行。美国国会图书馆和大多数国家档案馆指定这个范围是有原因的。 对于日常转换——例如 WAV 到 AIFF 的互换、调整采样率或创建用于交付的压缩文件——CocoConvert 可以在你的浏览器中完成工作。无需安装。但对于高度专业化的工作,例如母带级别的 SRC 或批量处理带有 BWF 元数据保留的广播文件,你需要使用专业工具集:iZotope RX 或 Adobe Audition。成为专业人士的一部分是知道为特定任务使用哪种工具,并理解任何工具(包括 CocoConvert)的局限性。