informational

计算机如何检测文件类型：详解“魔法字节”

2026-05-17 9 min read

为什么文件扩展名只说对了一半

大多数人以为，计算机知道一个文件是 JPEG，是因为它的文件名以 .jpg 结尾。这个假设很合理，但基本不靠谱。文件扩展名只是一种命名约定，它给操作系统的是一个提示，而不是对文件内容的保证。如果你把一个 PNG 文件重命名为 .txt，Windows 会很乐意地用记事本打开它，然后给你看满屏的乱码。如果你想用 Adobe Acrobat 打开一个被你重命名为 .pdf 的 Word 文档，它会直接拒绝。这一点对于文件转换来说至关重要。当你上传一个文件到像 CocoConvert 这样的服务时，系统不能只相信扩展名。有人可能会把一个恶意的可执行文件（.exe）重命名为 .jpg，以此骗过简陋的文件处理器。更常见的情况是，用户可能只是不小心用错误的扩展名保存了文件。我们都见过下载损坏后完全丢失扩展名元数据的文件。几十年前人们就找到了解决方案，那就是忽略文件名，直接读取文件的实际二进制内容。具体来说，程序会读取文件开头的几个字节，并将它们与一个已知的签名数据库进行比较。这些签名被称为“魔法字节”（magic bytes），或者更正式地称为“文件签名”（file signatures）。无论文件名是什么，它们才是关于文件内容最可靠的依据。

魔法字节到底是什么

每一种标准化的文件格式都会保留文件开头的几个字节，用作一个独特的标识符。这些用十六进制表示的字节是直接写入格式规范中的，而不是操作系统后来添加的。你可以用十六进制编辑器亲眼看看这些字节。我们来看几个常见的文件类型： - **JPEG 图像** 总是以 FF D8 FF 开头。前两个字节（FF D8）标记数据流的开始，第三个字节（FF）则开启第一个标记段。 - **PNG 图像** 以一个 8 字节的签名开头：89 50 4E 47 0D 0A 1A 0A。你会发现，其中的 50 4E 47 部分是“PNG”的 ASCII 码。 - **PDF 文件** 以 25 50 44 46 开头，这是“%PDF”的 ASCII 码。你用任何纯文本编辑器打开 PDF 文件，都能在最顶部看到这个。 - **ZIP 压缩包** 以 50 4B 03 04 开头。这是“PK”的 ASCII 码，代表该格式的创建者 Phil Katz。因为 DOCX、XLSX、PPTX 和 JAR 文件都是基于 ZIP 的，所以它们都有相同的签名。 - **MP3 音频** 文件通常以 FF FB 或 FF F3 开头，这是 MPEG 同步字。 - **Windows 上的 EXE 文件** 以 4D 5A 开头——这是“MZ”的 ASCII 码，代表 MS-DOS 的最初架构师之一 Mark Zbikowski。 “魔法字节”这个名字来源于 Unix 的 `file` 命令，该命令自 20 世纪 70 年代以来就一直使用一个名为 `/etc/magic`（在现代系统上是 `/usr/share/misc/magic`）的数据库。当你在终端运行 `file photo.jpg` 时，该工具会读取文件开头的字节，查询它的数据库，然后告诉你真实的文件类型，完全忽略 .jpg 这个扩展名。

检测软件如何读取签名

理论上，读取魔法字节很简单。但在实践中，各种边缘情况会让你头疼。基本流程是，将文件作为原始二进制流打开，读取一小块缓冲区——通常是前 512 字节——然后将这个缓冲区与已知签名列表进行比较。然而，有些格式需要读取更深的内容。比较过程并不总是简单的头部匹配。有些格式会把它们的签名放在一个固定的偏移量处。例如，ISO 磁盘镜像格式，它的“CD001”签名是从第 32,769 字节开始的。ZIP 文件的中央目录可能在文件的末尾，这迫使一些检测器必须从文件尾部而不是头部开始扫描。像 Apache Tika (Java)、python-magic (Python) 和 libmagic (C) 这样的现代库处理了这些复杂性。仅 Apache Tika 就知道超过 1300 种文件类型，能检测 MIME 类型、字符编码，甚至嵌入的元数据。在 CocoConvert，我们使用服务器端的签名检测作为第一道防线。如果你浏览器声明的 MIME 类型与二进制签名所显示的不符，文件就会被标记出来，在开始任何转换前进行更仔细的检查。容器格式让事情变得更加棘手。一个 DOCX 文件和一个 JAR 文件都以 50 4B 03 04 开头，因为它们都是 ZIP 压缩包。为了区分它们，软件必须深入压缩包内部，寻找特定的文件，比如 DOCX 的 [Content_Types].xml 或 JAR 的 META-INF/MANIFEST.MF。这种两步检测法是任何专业文件处理流程的标准实践。

魔法字节也会失灵（而且确实会）

魔法字节很可靠，但并非万无一失。一些真实世界的场景可能会让基于签名的检测出错，给你错误或模棱两可的答案。 **截断文件**是一个老大难问题。如果下载中断，你可能会得到一个有有效 JPEG 头部但没有实际图像数据的文件。签名检查能通过，但后续的转换会失败，因为解码器期望的是一张完整的图像，结果只找到了一个片段。 **恶意构造的文件**可以利用魔法字节只覆盖文件头部的特点。一个文件可以有一个有效的 PNG 头部，后面跟着恶意的代码。这是一种已知的攻击方式，称为“多语言文件”（polyglot file）——一个二进制文件同时是两种不同的有效文件类型。研究人员已经制造出 JPEG/JavaScript 多语言文件，浏览器会将其作为脚本执行，而图片查看器则会将其显示为照片。仅靠签名检测是无法发现这些的。 **格式版本冲突**带来了另一层模糊性。2007 年之前，Microsoft Office 文件（DOC、XLS、PPT）使用复合文档二进制格式，以 D0 CF 11 E0 A1 B1 1A E1 开头。这三种格式共享完全相同的签名。你无法仅凭魔法字节来区分 .doc、.xls 和 .ppt 文件；必须解析其内部结构。 **纯文本格式**，如 CSV、JSON、XML、HTML 和 Markdown，根本没有魔法字节。它们只是一串字符序列。对它们的检测依赖于启发式分析：寻找特定模式，比如尖括号（HTML/XML）或花括号（JSON）。这些启发式方法可能会出错。任何跟那些用分号而不是逗号的所谓“CSV”文件打过交道的人，都深知这种痛苦。如果 CocoConvert 无法自信地识别文件类型，它会直接告诉你。我们认为，返回一个明确的错误，远比猜测着处理并最终生成一个损坏文件要有用得多。

这对文件转换的实际意义

那么，这到底对你有什么帮助呢？它完全改变了你排查转换失败原因的方式。当一个服务报告“不支持或无法识别的文件格式”时，问题几乎从来不在于文件扩展名，而在于文件内容本身。以下是一些最常见的罪魁祸首以及应对方法： **文件格式与你想象的不一样。** 这种情况在从设计工具导出文件时经常发生。比如，Figma 可能会导出一个标记为 .jpg 的文件，但它实际上是一个 PNG。最好的办法是在十六进制编辑器（比如 Windows 上的 HxD 或 macOS 上的 Hex Fiend）中打开文件，检查开头的几个字节。如果你看到 89 50 4E 47，那它就是个 PNG，不管文件名是什么。重命名后再试一次。 **文件受密码保护或 DRM 加密。** 加密过的 Office 文档仍然以 D0 CF 11 E0 开头，所以签名检查能通过。但里面的内容是密文。CocoConvert 无法解密受密码保护的文件。不要把这误认为是服务的局限性；这是加密技术本身的一个基本安全特性。 **容器文件包含了错误的内容。** 一个通过将通用 .zip 文件重命名为 .docx 而创建的文件，虽然有正确的签名（50 4B），但转换会失败，因为它缺少内部必需的 Word 处理 XML 结构。转换器打开压缩包，找不到任何可用的东西，只好放弃。 **视频文件中的编解码器不匹配。** 一个 MKV 容器（以 1A 45 DF A3 开头）可以包含用 H.264、H.265、AV1、VP9 或几十种其他编解码器编码的视频。魔法字节只能确认它是 MKV 容器，而不能确认视频流的编解码器。如果 CocoConvert 支持 MKV，但你的文件使用了像 RealVideo 4 这样的罕见编解码器，那么初始检测会通过，但转码步骤将会失败。

无需专业软件，如何检查文件的真实类型

你不需要安装专门的软件来验证文件的真实身份。下面这些方法在你已有的工具上就能用，并且适用于所有主流操作系统。 **在 Windows 上：** 打开 PowerShell 并运行 `Format-Hex -Path 'C:\path\to\yourfile.ext' | Select-Object -First 3`。这个命令会以十六进制打印出文件的前 48 个字节。将第一行字节与本文前面列出的签名进行比较。 **在 macOS 和 Linux 上：** 打开终端并运行 `xxd yourfile | head -3`。这会显示字节偏移量、十六进制值和 ASCII 表示。更好的方法是直接运行 `file yourfile`。`file` 是内置命令，能立刻给你一个清晰易读的答案。 **在浏览器中，无需任何工具：** 如果你在一台权限受限的电脑上无法运行命令，可以访问 CocoConvert 的检测页面 cocoConvert.com/detect。上传文件，我们的服务会报告检测到的 MIME 类型、匹配到的签名字节以及可信度。 **在 Python 中（针对开发者）：** 在 `pip install python-magic` 之后，你可以运行 `import magic; print(magic.from_file('yourfile', mime=True))`。这会给出一个标准的 MIME 类型，比如 `image/jpeg`。不过，对于生产环境的 Python 代码，我的建议是改用 `filetype` 库。它没有系统依赖，这使得在 Windows 上部署要容易得多，无需跟 libmagic 的 DLL 文件作斗争。在上传前了解文件的真实 MIME 类型能节省大量时间。如果一个文件检测出的类型不在某个服务支持的输入格式列表上，你马上就知道这次转换会失败。

任何转换服务承诺的极限

对于覆盖了 99% 日常使用的约 200 种文件格式来说，魔法字节检测是一个已经解决的问题。但对于那些小众的、专有的或旧版的“长尾”格式，没有任何服务——包括 CocoConvert——能保证完全覆盖。像用于 CAD 绘图的 Autodesk DWG 格式、来自特定扫描仪品牌的专有医学成像变体、或来自老式合成器的冷门音频格式，这些往往缺乏或根本没有公开的文档。即使魔法字节是已知的，其内部结构也可能是一个黑箱。转换器可能会生成数据丢失、颜色不正确或元数据层丢失的输出文件。在撰写本文时，CocoConvert 支持大约 300 种输入格式。虽然这听起来很多，但美国国会图书馆的 PRONOM 注册库记录了超过 2000 种不同的文件格式。这个差距代表了那些过于冷门以至于不值得投入工程资源、受专利法律限制、或文档记录过差以至于任何转换尝试都像是一场赌博的格式。我的建议是：如果你在医学成像、地理空间数据或专业视频等行业工作，你必须在投入到一个转换工作流中之前，验证格式是否受支持。请查看 CocoConvert 的格式支持页面。它列出了所有支持的输入和输出格式，以及已知限制的说明。先检查一下，总比上传一个 4GB 大小的广播母带文件后才发现它特定的 MXF 变体不被支持要好得多。魔法字节告诉计算机一个文件是什么。但它并不能说明，转换这个文件能否得到有用的东西。这第二个、也是更重要的问题，取决于良好的文档、清晰的授权以及专注的工程工作，这是任何巧妙的字节嗅探技术都无法替代的。

← Browse all articles