Skip to content
Back to Blog
platform-pain-points

PDF 文本无法搜索?运行 OCR 来解决它

2026-05-17 8 min read

为什么你的 PDF 拒绝让你搜索?

你按下 Ctrl+F,输入一个你知道在第 4 页上的词,结果……什么都没有。文字明明就在那里,清晰可见,但你的 PDF 却像一张照片一样。这实际上是因为,在所有实际用途中,它 *就是* 一张照片。 这种令人抓狂的情况通常由两个原因造成。有人可能扫描了纸质文档——比如一份签名的合同、旧发票或病历——并将其保存为 PDF,但没有进行任何文本识别。扫描仪只是捕捉了页面的图像,而不是上面的字母和单词。另外,有些软件应用程序在创建 PDF 时,会将所有内容扁平化为一个单一的图像层,即使原始文件具有完美的文本选择能力,也会丢弃底层文本数据。 结果就是,这份 PDF 看起来完全正常,但却不包含任何机器可读的字符。你无法搜索它,无法从它复制粘贴,屏幕阅读器也毫无用处。如果你尝试将其转换为 Word 或 Excel,你会得到一个空白文档或一个充满空框的文件。 解决方案是光学字符识别,简称 OCR。OCR 软件分析图像中的像素,识别字母的形状,并重建实际文本。运行 OCR 后,你的 PDF 会获得一个隐藏的文本层,它不可见地位于视觉图像下方。它看起来仍然一模一样,但现在 Ctrl+F 可以用了,复制粘贴也行了,而且你转换为可编辑格式的文件将真正包含内容。

OCR 究竟做了什么(以及它可能出错的地方)

从核心来看,OCR 引擎将图像分解为区域,分离单个字符形状,然后根据其训练模型进行一场高风险的匹配游戏。现代引擎,例如 CocoConvert 使用的基于 Tesseract 的管道,都是通过数百万份真实文档进行训练的。它们能处理标准字体、大小写混合文本和常见布局,在清晰的扫描件上准确率通常超过 98%。 但别让那 98% 的准确率让你产生虚假的安全感。一份 10 页的文档,每页 500 个词,大约有 30,000 个字符。即使准确率达到 98%,你仍然会遇到 600 个错误。这足以让一份法律文件变得不可靠,或者让一份财务报告具有危险的误导性。 原始材料质量差时,准确率会急剧下降。低分辨率扫描件(任何低于 200 DPI 的)、背景纹理复杂的页面、花哨的装饰字体、间距不规则的列以及不常见语言的文档,都会带来挑战。一张以 96 DPI 扫描的褪色热敏收据,无论 OCR 引擎有多智能,都只会产生一堆乱码。 甚至页面方向也很重要。文档即使只是倾斜 3-4 度扫描,也可能扰乱字符分割过程。好的 OCR 管道,包括 CocoConvert 的,都会运行一个“去倾斜”步骤,自动检测并纠正这种旋转。但如果你的扫描角度很差——比如随手拍的手机照片——结果就会不尽人意。 手写体是最终的挑战。标准 OCR 专为印刷文本而设计。尤其是草书,任何通用工具都将产生极其不可靠的结果。尽管存在专门的手写识别技术,但那是一种完全不同的技术,CocoConvert 目前不提供此功能。如果你的文档是手写的,OCR 会尽力而为,但你必须预料到会有大量错误,并计划进行全面的手动审查。

如何使用 CocoConvert 对扫描版 PDF 运行 OCR

完成这项工作很简单。前往 CocoConvert,找到“PDF 转可搜索 PDF”转换器。你可以在“PDF 工具”部分找到它,或者直接在主搜索栏中输入“OCR”。 现在,上传你的文件。CocoConvert 在免费套餐中支持最大 200 MB 的 PDF 文件,付费套餐则将此限制提高到 2 GB。如果你要处理的扫描存档文件过大,超出了你的套餐限制,你需要先使用 PDF 拆分工具将其拆分,然后再运行 OCR。 上传后,你会看到一个 OCR 设置面板。在这里请注意。最重要的选择是语言。尽管默认是英语,但该引擎支持 100 多种语言。如果你的文档是法语、德语、西班牙语或其他语言,你必须选择相应的语言。选择错误的语言不会中断转换,但你的错误率会飙升,尤其是在处理带重音的字符时。 另一个关键选择是输出格式。你可以获得一个可搜索的 PDF(原始图像得以保留,下方添加了文本层),或者一个纯文本 PDF(它根据识别出的文本重建文档外观)。对于几乎所有常见用例——合同、发票、报告——你都会想要可搜索的 PDF。纯文本选项对于提取原始文本以便在其他地方编辑很有用,但它会丢弃原始布局和任何嵌入的图像。 点击“转换”,稍等一分钟(20 页的扫描件通常需要 30-90 秒),然后下载你的文件。打开它,按下 Ctrl+F,尝试搜索一个词。这简直是小小的魔法。

在依赖 OCR 输出之前检查其质量

永远不要盲目相信 OCR 的输出结果。转换完成并不意味着它就是完美的。这只意味着引擎处理了每一页。现在你需要验证其质量。 最快的方法是复制粘贴测试。说真的,每次都要这样做。打开你的新 PDF,选择一个完整的段落文本,复制,然后粘贴到一个简单的文本编辑器中。现在阅读它。寻找经典的 OCR 错误:乱码词、单词之间空格消失、数字被误认为是字母(数字“0”变成字母“O”是老生常谈了),以及标点符号被篡改。 对于任何准确性不容妥协的文档——法律合同、医疗记录、财务报表——你需要更加彻底地检查。将原始扫描件和新的可搜索版本并排打开。抽查至少 10% 的页面,特别注意密集文本、小字体或原始扫描件看起来模糊的任何区域。 如果你发现错误率超过 1-2%,问题几乎肯定出在你的源文件上。以 300 DPI 而不是 150 DPI 重新扫描可以带来奇效。大多数现代扫描仪默认为 200 或 300 DPI;检查你的设置中的“扫描分辨率”或“输出质量”。如果你使用的是手机照片,像 Microsoft Lens 或 Adobe Scan 这样的专用扫描应用要比你的默认相机应用强大得多,因为它们可以校正透视并增强对比度。 有一点需要知道:CocoConvert 不提供置信度评分,也不会在输出中高亮显示可疑词语。对于某些高风险的工作流程来说,这是一个实实在在的限制。像 ABBYY FineReader 这样的企业平台提供此功能,对于合规敏感的工作,这种额外的验证层可以证明更高的成本是合理的。

将扫描版 PDF 转换为可编辑的 Word 文档

可搜索的 PDF 很棒,但如果你需要实际 *编辑* 内容呢?也许你需要修正错别字、更新数字,或者完全重新排版某个部分。为此,你会想把扫描版 PDF 直接转换为 Word 文档。 CocoConvert 可以一键完成此操作。只需使用“PDF 转 Word”转换器,并确保在设置中启用 OCR 选项——寻找一个标有“为扫描文档启用 OCR”的开关。启用此选项后,引擎会首先识别文本,然后尽力在 Word 中重建原始布局,包括匹配的字体和段落样式。 这里的关键词是“尽力而为”。这种重建的质量会因文档的复杂程度而差异巨大。像信件或备忘录这样简单的单栏文档,转换效果可能会非常干净。多栏杂志布局、密集的表格,或任何文字环绕图像的内容,都绝对需要手动清理。表格是一个臭名昭著的挑战;OCR 可能会完美识别单元格中的文本,但重建表格结构完全取决于扫描件中边框的清晰程度。 你必须预留时间来清理 Word 输出。对于一份格式标准的 10 页报告,至少要预留 20-30 分钟来整理字体、页码和页眉。对于一份包含表格和混合布局的 50 页巨型文档,所需时间会大大增加。把 OCR 到 Word 的转换看作是给你一个强大的开端,而不是一个成品。

OCR 并非万能药:它不适用的情况

OCR 是一个强大的解决方案,但它只适用于正确的问题。在你将文件通过 OCR 引擎处理之前,最好先诊断一下你的 PDF 到底出了什么问题,因为并非所有无法搜索的 PDF 都是简单的图像扫描件。 有时,PDF 确实包含真实文本,但它使用的是自定义字体编码,无法映射到标准字符。如果你能选择文本,但复制粘贴后却得到乱码——随机符号、空框或杂乱的字母——你就知道是这种情况了。这是一个字体编码问题,而不是图像问题。在这种情况下运行 OCR,就像给骨折的腿贴创可贴一样;它无法解决根本问题,只会增加另一层潜在错误。真正的解决方案是从源文件重新导出 PDF,并嵌入标准字体。 另一个罪魁祸首是密码保护。有些 PDF 设置了限制文本复制,这可能让它们看起来无法搜索。OCR 在这里是无用的,因为文本数据是存在的,只是被锁定了。你需要先输入密码来解除限制。 当然,有时 PDF 文件只是损坏了。如果文件结构损坏,它甚至可能无法正确渲染。尽管 CocoConvert 可以修复轻微损坏,但严重损坏的文件可能根本无法处理。 最后,不要将 OCR 误认为是一个完整的无障碍解决方案。如果你的目标是让 PDF 完全可供视障用户通过屏幕阅读器使用,那么 OCR 只是第一步。真正的无障碍性需要一个带标签的结构(定义标题、列表、阅读顺序以及图像的替代文本),这是一个独立且更复杂的过程,自动化工具目前还无法很好地处理。

每次都能获得更好 OCR 结果的实用技巧

源文件质量是影响 OCR 准确性的最大单一因素。俗话说,垃圾进,垃圾出。好消息是,这部分完全在你的掌控之中。 首先,以 300 DPI 扫描。这一点我怎么强调都不为过。这是档案管理员和法律事务所推荐的通用标准,这并非没有道理。在 300 DPI 下,字符清晰锐利。在 150 DPI 下,小字体(任何小于 10pt 的)开始变得模糊和模棱两可。提高到 600 DPI 只会带来微乎其微的收益,却会产生大得多的文件,因此 300 DPI 是大多数文档的最佳选择。 对于纯文本文档,请使用灰度或黑白模式。彩色扫描件文件更大,并可能引入压缩伪影,使文本模糊。除非你需要保留彩色图表或照片,否则请坚持使用灰度模式。还有,请清洁你的扫描仪玻璃板。那个微小的污迹或灰尘点会在你扫描的每一页上显示为黑点,OCR 引擎会浪费时间试图弄清楚那是什么字母。任何与行为异常的 PDF 导出作斗争过的人都知道,小细节很重要。 如果你正在扫描一本书,请将书脊压平,一次扫描一页。试图一次扫描两页会在书脊附近引入阴影和弯曲,这将严重损害该区域的 OCR 准确性。 最后,对于大型项目,请记住 CocoConvert 的付费套餐支持批量处理。如果你有一个包含 50 个扫描版 PDF 的文件夹需要处理,你可以将它们打包成 ZIP 文件并一次性上传。对于任何数字化旧档案的人来说,这都是一个巨大的省时利器。