platform-pain-points

PDF 文本无法搜索？运行 OCR 来解决它

2026-05-17 8 min read

为什么你的 PDF 拒绝让你搜索？

你按下 Ctrl+F，输入一个你知道在第 4 页上的词，结果……什么都没有。文字明明就在那里，清晰可见，但你的 PDF 却像一张照片一样。这实际上是因为，在所有实际用途中，它 *就是* 一张照片。这种令人抓狂的情况通常由两个原因造成。有人可能扫描了纸质文档——比如一份签名的合同、旧发票或病历——并将其保存为 PDF，但没有进行任何文本识别。扫描仪只是捕捉了页面的图像，而不是上面的字母和单词。另外，有些软件应用程序在创建 PDF 时，会将所有内容扁平化为一个单一的图像层，即使原始文件具有完美的文本选择能力，也会丢弃底层文本数据。结果就是，这份 PDF 看起来完全正常，但却不包含任何机器可读的字符。你无法搜索它，无法从它复制粘贴，屏幕阅读器也毫无用处。如果你尝试将其转换为 Word 或 Excel，你会得到一个空白文档或一个充满空框的文件。解决方案是光学字符识别，简称 OCR。OCR 软件分析图像中的像素，识别字母的形状，并重建实际文本。运行 OCR 后，你的 PDF 会获得一个隐藏的文本层，它不可见地位于视觉图像下方。它看起来仍然一模一样，但现在 Ctrl+F 可以用了，复制粘贴也行了，而且你转换为可编辑格式的文件将真正包含内容。

OCR 究竟做了什么（以及它可能出错的地方）

从核心来看，OCR 引擎将图像分解为区域，分离单个字符形状，然后根据其训练模型进行一场高风险的匹配游戏。现代引擎，例如 CocoConvert 使用的基于 Tesseract 的管道，都是通过数百万份真实文档进行训练的。它们能处理标准字体、大小写混合文本和常见布局，在清晰的扫描件上准确率通常超过 98%。但别让那 98% 的准确率让你产生虚假的安全感。一份 10 页的文档，每页 500 个词，大约有 30,000 个字符。即使准确率达到 98%，你仍然会遇到 600 个错误。这足以让一份法律文件变得不可靠，或者让一份财务报告具有危险的误导性。原始材料质量差时，准确率会急剧下降。低分辨率扫描件（任何低于 200 DPI 的）、背景纹理复杂的页面、花哨的装饰字体、间距不规则的列以及不常见语言的文档，都会带来挑战。一张以 96 DPI 扫描的褪色热敏收据，无论 OCR 引擎有多智能，都只会产生一堆乱码。甚至页面方向也很重要。文档即使只是倾斜 3-4 度扫描，也可能扰乱字符分割过程。好的 OCR 管道，包括 CocoConvert 的，都会运行一个“去倾斜”步骤，自动检测并纠正这种旋转。但如果你的扫描角度很差——比如随手拍的手机照片——结果就会不尽人意。手写体是最终的挑战。标准 OCR 专为印刷文本而设计。尤其是草书，任何通用工具都将产生极其不可靠的结果。尽管存在专门的手写识别技术，但那是一种完全不同的技术，CocoConvert 目前不提供此功能。如果你的文档是手写的，OCR 会尽力而为，但你必须预料到会有大量错误，并计划进行全面的手动审查。

如何使用 CocoConvert 对扫描版 PDF 运行 OCR

完成这项工作很简单。前往 CocoConvert，找到“PDF 转可搜索 PDF”转换器。你可以在“PDF 工具”部分找到它，或者直接在主搜索栏中输入“OCR”。现在，上传你的文件。CocoConvert 在免费套餐中支持最大 200 MB 的 PDF 文件，付费套餐则将此限制提高到 2 GB。如果你要处理的扫描存档文件过大，超出了你的套餐限制，你需要先使用 PDF 拆分工具将其拆分，然后再运行 OCR。上传后，你会看到一个 OCR 设置面板。在这里请注意。最重要的选择是语言。尽管默认是英语，但该引擎支持 100 多种语言。如果你的文档是法语、德语、西班牙语或其他语言，你必须选择相应的语言。选择错误的语言不会中断转换，但你的错误率会飙升，尤其是在处理带重音的字符时。另一个关键选择是输出格式。你可以获得一个可搜索的 PDF（原始图像得以保留，下方添加了文本层），或者一个纯文本 PDF（它根据识别出的文本重建文档外观）。对于几乎所有常见用例——合同、发票、报告——你都会想要可搜索的 PDF。纯文本选项对于提取原始文本以便在其他地方编辑很有用，但它会丢弃原始布局和任何嵌入的图像。点击“转换”，稍等一分钟（20 页的扫描件通常需要 30-90 秒），然后下载你的文件。打开它，按下 Ctrl+F，尝试搜索一个词。这简直是小小的魔法。

在依赖 OCR 输出之前检查其质量

永远不要盲目相信 OCR 的输出结果。转换完成并不意味着它就是完美的。这只意味着引擎处理了每一页。现在你需要验证其质量。最快的方法是复制粘贴测试。说真的，每次都要这样做。打开你的新 PDF，选择一个完整的段落文本，复制，然后粘贴到一个简单的文本编辑器中。现在阅读它。寻找经典的 OCR 错误：乱码词、单词之间空格消失、数字被误认为是字母（数字“0”变成字母“O”是老生常谈了），以及标点符号被篡改。对于任何准确性不容妥协的文档——法律合同、医疗记录、财务报表——你需要更加彻底地检查。将原始扫描件和新的可搜索版本并排打开。抽查至少 10% 的页面，特别注意密集文本、小字体或原始扫描件看起来模糊的任何区域。如果你发现错误率超过 1-2%，问题几乎肯定出在你的源文件上。以 300 DPI 而不是 150 DPI 重新扫描可以带来奇效。大多数现代扫描仪默认为 200 或 300 DPI；检查你的设置中的“扫描分辨率”或“输出质量”。如果你使用的是手机照片，像 Microsoft Lens 或 Adobe Scan 这样的专用扫描应用要比你的默认相机应用强大得多，因为它们可以校正透视并增强对比度。有一点需要知道：CocoConvert 不提供置信度评分，也不会在输出中高亮显示可疑词语。对于某些高风险的工作流程来说，这是一个实实在在的限制。像 ABBYY FineReader 这样的企业平台提供此功能，对于合规敏感的工作，这种额外的验证层可以证明更高的成本是合理的。

将扫描版 PDF 转换为可编辑的 Word 文档

可搜索的 PDF 很棒，但如果你需要实际 *编辑* 内容呢？也许你需要修正错别字、更新数字，或者完全重新排版某个部分。为此，你会想把扫描版 PDF 直接转换为 Word 文档。 CocoConvert 可以一键完成此操作。只需使用“PDF 转 Word”转换器，并确保在设置中启用 OCR 选项——寻找一个标有“为扫描文档启用 OCR”的开关。启用此选项后，引擎会首先识别文本，然后尽力在 Word 中重建原始布局，包括匹配的字体和段落样式。这里的关键词是“尽力而为”。这种重建的质量会因文档的复杂程度而差异巨大。像信件或备忘录这样简单的单栏文档，转换效果可能会非常干净。多栏杂志布局、密集的表格，或任何文字环绕图像的内容，都绝对需要手动清理。表格是一个臭名昭著的挑战；OCR 可能会完美识别单元格中的文本，但重建表格结构完全取决于扫描件中边框的清晰程度。你必须预留时间来清理 Word 输出。对于一份格式标准的 10 页报告，至少要预留 20-30 分钟来整理字体、页码和页眉。对于一份包含表格和混合布局的 50 页巨型文档，所需时间会大大增加。把 OCR 到 Word 的转换看作是给你一个强大的开端，而不是一个成品。

OCR 并非万能药：它不适用的情况

OCR 是一个强大的解决方案，但它只适用于正确的问题。在你将文件通过 OCR 引擎处理之前，最好先诊断一下你的 PDF 到底出了什么问题，因为并非所有无法搜索的 PDF 都是简单的图像扫描件。有时，PDF 确实包含真实文本，但它使用的是自定义字体编码，无法映射到标准字符。如果你能选择文本，但复制粘贴后却得到乱码——随机符号、空框或杂乱的字母——你就知道是这种情况了。这是一个字体编码问题，而不是图像问题。在这种情况下运行 OCR，就像给骨折的腿贴创可贴一样；它无法解决根本问题，只会增加另一层潜在错误。真正的解决方案是从源文件重新导出 PDF，并嵌入标准字体。另一个罪魁祸首是密码保护。有些 PDF 设置了限制文本复制，这可能让它们看起来无法搜索。OCR 在这里是无用的，因为文本数据是存在的，只是被锁定了。你需要先输入密码来解除限制。当然，有时 PDF 文件只是损坏了。如果文件结构损坏，它甚至可能无法正确渲染。尽管 CocoConvert 可以修复轻微损坏，但严重损坏的文件可能根本无法处理。最后，不要将 OCR 误认为是一个完整的无障碍解决方案。如果你的目标是让 PDF 完全可供视障用户通过屏幕阅读器使用，那么 OCR 只是第一步。真正的无障碍性需要一个带标签的结构（定义标题、列表、阅读顺序以及图像的替代文本），这是一个独立且更复杂的过程，自动化工具目前还无法很好地处理。

每次都能获得更好 OCR 结果的实用技巧

源文件质量是影响 OCR 准确性的最大单一因素。俗话说，垃圾进，垃圾出。好消息是，这部分完全在你的掌控之中。首先，以 300 DPI 扫描。这一点我怎么强调都不为过。这是档案管理员和法律事务所推荐的通用标准，这并非没有道理。在 300 DPI 下，字符清晰锐利。在 150 DPI 下，小字体（任何小于 10pt 的）开始变得模糊和模棱两可。提高到 600 DPI 只会带来微乎其微的收益，却会产生大得多的文件，因此 300 DPI 是大多数文档的最佳选择。对于纯文本文档，请使用灰度或黑白模式。彩色扫描件文件更大，并可能引入压缩伪影，使文本模糊。除非你需要保留彩色图表或照片，否则请坚持使用灰度模式。还有，请清洁你的扫描仪玻璃板。那个微小的污迹或灰尘点会在你扫描的每一页上显示为黑点，OCR 引擎会浪费时间试图弄清楚那是什么字母。任何与行为异常的 PDF 导出作斗争过的人都知道，小细节很重要。如果你正在扫描一本书，请将书脊压平，一次扫描一页。试图一次扫描两页会在书脊附近引入阴影和弯曲，这将严重损害该区域的 OCR 准确性。最后，对于大型项目，请记住 CocoConvert 的付费套餐支持批量处理。如果你有一个包含 50 个扫描版 PDF 的文件夹需要处理，你可以将它们打包成 ZIP 文件并一次性上传。对于任何数字化旧档案的人来说，这都是一个巨大的省时利器。

← Browse all articles