platform-pain-points

Văn bản trong PDF không tìm kiếm được? Dùng OCR để khắc phục

2026-05-17 8 min read

Tại sao PDF của bạn không cho phép tìm kiếm văn bản?

Bạn nhấn Ctrl+F, gõ một từ mà bạn biết chắc có trên trang 4, và... chẳng có gì. Văn bản vẫn ở đó, rõ ràng như ban ngày, nhưng file PDF của bạn lại cư xử như thể nó là một bức ảnh. Thực tế thì, xét về mọi mặt, nó *chính là* một bức ảnh. Tình huống gây khó chịu này thường xảy ra vì hai lý do. Có thể ai đó đã quét một tài liệu vật lý – như một hợp đồng đã ký, hóa đơn cũ, hoặc hồ sơ y tế – và lưu nó dưới dạng PDF mà không sử dụng tính năng nhận dạng văn bản nào. Máy quét chỉ đơn thuần chụp lại hình ảnh của trang, chứ không phải các chữ cái và từ ngữ trên đó. Hoặc, một số ứng dụng phần mềm tạo PDF bằng cách làm phẳng mọi thứ thành một lớp hình ảnh duy nhất, loại bỏ dữ liệu văn bản gốc ngay cả khi file ban đầu có văn bản hoàn toàn có thể chọn được. Kết quả là một file PDF trông hoàn toàn bình thường nhưng không chứa bất kỳ ký tự nào mà máy tính có thể đọc được. Bạn không thể tìm kiếm trong đó. Bạn không thể copy-paste từ nó. Các trình đọc màn hình cũng vô dụng. Và nếu bạn thử chuyển đổi nó sang Word hoặc Excel, bạn sẽ nhận được một tài liệu trống hoặc một file toàn những ô vuông rỗng. Giải pháp ở đây là Nhận dạng Ký tự Quang học, hay OCR. Phần mềm OCR phân tích các pixel trong hình ảnh, nhận diện hình dạng chữ cái và tái tạo lại văn bản gốc. Sau khi chạy OCR, file PDF của bạn sẽ có thêm một lớp văn bản ẩn nằm vô hình bên dưới hình ảnh trực quan. Nó vẫn trông y hệt, nhưng giờ đây Ctrl+F hoạt động, copy-paste hoạt động, và các chuyển đổi sang định dạng có thể chỉnh sửa của bạn sẽ thực sự chứa nội dung.

OCR thực sự làm gì (và những lỗi có thể xảy ra)

Về cơ bản, một công cụ OCR sẽ chia hình ảnh thành các vùng, tách biệt từng hình dạng ký tự và thực hiện một trò chơi ghép cặp đầy rủi ro với các mô hình đã được huấn luyện. Các công cụ hiện đại, như quy trình dựa trên Tesseract mà CocoConvert sử dụng, được đào tạo trên hàng triệu tài liệu thực tế. Chúng xử lý các font chữ tiêu chuẩn, văn bản trộn chữ hoa/thường và các bố cục phổ biến với tỷ lệ chính xác thường vượt quá 98% trên các bản quét sạch. Nhưng đừng để con số 98% đó ru ngủ bạn vào một cảm giác an toàn giả tạo. Một tài liệu 10 trang với 500 từ mỗi trang có khoảng 30.000 ký tự. Với độ chính xác 98%, bạn vẫn có thể gặp tới 600 lỗi. Con số đó là quá đủ để khiến một tài liệu pháp lý trở nên không đáng tin cậy hoặc một báo cáo tài chính gây hiểu lầm nguy hiểm. Độ chính xác giảm mạnh với tài liệu nguồn kém chất lượng. Các bản quét độ phân giải thấp (dưới 200 DPI), các trang có nền nhiều họa tiết, font chữ trang trí lạ mắt, cột giãn cách không đều, và tài liệu bằng các ngôn ngữ ít phổ biến hơn đều gây ra thách thức. Một hóa đơn nhiệt bị mờ được quét ở 96 DPI sẽ tạo ra văn bản hoàn toàn vô nghĩa, bất kể công cụ OCR có thông minh đến đâu. Ngay cả hướng trang cũng quan trọng. Một tài liệu được quét chỉ lệch 3–4 độ cũng có thể làm sai lệch quá trình phân đoạn ký tự. Các quy trình OCR tốt, bao gồm cả của CocoConvert, đều chạy một bước 'deskew' (chỉnh nghiêng) để tự động phát hiện và sửa lỗi xoay này. Nhưng nếu bản quét của bạn bị lệch góc quá nhiều – hãy nghĩ đến một bức ảnh chụp nhanh bằng điện thoại – kết quả sẽ không hoàn hảo. Chữ viết tay là thử thách cuối cùng. OCR tiêu chuẩn được xây dựng cho văn bản in. Chữ viết thường, đặc biệt là chữ nghiêng, sẽ cho ra kết quả cực kỳ không đáng tin cậy từ bất kỳ công cụ đa năng nào. Mặc dù có công nghệ nhận dạng chữ viết tay chuyên biệt, nhưng đó là một công nghệ hoàn toàn khác, và CocoConvert hiện chưa cung cấp. Nếu tài liệu của bạn là chữ viết tay, OCR sẽ cố gắng hết sức, nhưng bạn phải lường trước những lỗi đáng kể và lên kế hoạch kiểm tra thủ công toàn bộ.

Cách chạy OCR trên file PDF được quét bằng CocoConvert

Thực hiện việc này rất đơn giản. Bạn truy cập CocoConvert và tìm công cụ chuyển đổi PDF sang PDF có thể tìm kiếm. Bạn có thể tìm thấy nó trong phần PDF Tools hoặc chỉ cần gõ 'OCR' vào thanh tìm kiếm chính. Bây giờ, hãy tải file của bạn lên. CocoConvert chấp nhận các file PDF có dung lượng lên tới 200 MB ở gói miễn phí, và giới hạn đó tăng lên 2 GB cho các gói trả phí. Nếu bạn đang xử lý một kho lưu trữ được quét khổng lồ lớn hơn mức gói của bạn cho phép, bạn sẽ cần phải tách nó trước bằng công cụ PDF Split trước khi chạy OCR. Sau khi tải lên, bạn sẽ thấy bảng cài đặt OCR. Hãy chú ý ở đây. Lựa chọn quan trọng nhất là ngôn ngữ. Mặc dù mặc định là tiếng Anh, công cụ này hỗ trợ hơn 100 ngôn ngữ. Nếu tài liệu của bạn bằng tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha hoặc ngôn ngữ khác, bạn phải chọn nó. Chọn sai ngôn ngữ sẽ không làm hỏng quá trình chuyển đổi, nhưng tỷ lệ lỗi của bạn sẽ tăng vọt, đặc biệt là với các ký tự có dấu. Một lựa chọn quan trọng khác là định dạng đầu ra. Bạn có thể nhận được một PDF có thể tìm kiếm (trong đó hình ảnh gốc được giữ nguyên với một lớp văn bản được thêm vào bên dưới) hoặc một PDF chỉ có văn bản (tái tạo lại giao diện tài liệu từ văn bản được nhận dạng). Đối với hầu hết các trường hợp sử dụng phổ biến – hợp đồng, hóa đơn, báo cáo – bạn sẽ muốn PDF có thể tìm kiếm. Tùy chọn chỉ văn bản có thể hữu ích để trích xuất văn bản thô để chỉnh sửa ở nơi khác, nhưng nó sẽ loại bỏ bố cục gốc và mọi hình ảnh được nhúng. Nhấn 'Convert' (Chuyển đổi), đợi một lát (một bản quét 20 trang thường mất 30–90 giây), và tải file của bạn về. Mở nó ra, nhấn Ctrl+F, và thử tìm kiếm một từ xem. Thật kỳ diệu phải không?

Kiểm tra chất lượng OCR trước khi tin tưởng vào kết quả

Đừng bao giờ tin tưởng mù quáng vào kết quả OCR. Việc chuyển đổi hoàn tất không có nghĩa là nó hoàn hảo. Điều đó chỉ có nghĩa là công cụ đã xử lý mọi trang. Bây giờ bạn cần xác minh chất lượng. Cách nhanh nhất là kiểm tra bằng cách copy-paste. Nghiêm túc đấy, hãy làm điều này mỗi lần. Mở file PDF mới của bạn, chọn một đoạn văn bản đầy đủ, sao chép và dán nó vào một trình soạn thảo văn bản đơn giản. Bây giờ hãy đọc nó. Tìm kiếm các lỗi OCR kinh điển: từ bị xáo trộn, khoảng trắng biến mất giữa các từ, số bị nhầm thành chữ cái (chữ số '0' biến thành chữ 'O' là một lỗi thường gặp), và dấu câu bị biến dạng. Đối với bất kỳ tài liệu nào mà độ chính xác là không thể thỏa hiệp – hợp đồng pháp lý, hồ sơ y tế, báo cáo tài chính – bạn cần phải kỹ lưỡng hơn. Mở bản quét gốc và phiên bản có thể tìm kiếm mới cạnh nhau. Kiểm tra ngẫu nhiên ít nhất 10% số trang, đặc biệt chú ý đến văn bản dày đặc, font chữ nhỏ hoặc bất kỳ khu vực nào mà bản quét gốc trông mờ. Nếu bạn thấy tỷ lệ lỗi trên 1-2%, vấn đề gần như chắc chắn nằm ở file nguồn của bạn. Việc quét lại ở 300 DPI thay vì 150 DPI có thể tạo ra sự khác biệt đáng kể. Hầu hết các máy quét hiện đại đều mặc định ở 200 hoặc 300 DPI; hãy kiểm tra cài đặt của bạn cho 'Scan Resolution' (Độ phân giải quét) hoặc 'Output Quality' (Chất lượng đầu ra). Nếu bạn đang dùng ảnh chụp từ điện thoại, các ứng dụng quét chuyên dụng như Microsoft Lens hoặc Adobe Scan vượt trội hơn nhiều so với ứng dụng camera mặc định của bạn, vì chúng điều chỉnh phối cảnh và tăng độ tương phản. Một điều cần biết: CocoConvert không cung cấp điểm tin cậy hoặc làm nổi bật các từ đáng ngờ trong kết quả đầu ra. Đây là một hạn chế thực sự đối với một số quy trình công việc có rủi ro cao. Các nền tảng cấp doanh nghiệp như ABBYY FineReader cung cấp tính năng này, và đối với công việc nhạy cảm về tuân thủ, lớp xác minh bổ sung đó có thể biện minh cho chi phí cao hơn.

Chuyển đổi PDF được quét sang tài liệu Word có thể chỉnh sửa

Một file PDF có thể tìm kiếm thì rất tuyệt, nhưng nếu bạn cần thực sự *chỉnh sửa* nội dung thì sao? Có thể bạn cần sửa lỗi chính tả, cập nhật số liệu, hoặc định dạng lại hoàn toàn một phần nào đó. Để làm điều đó, bạn sẽ muốn chuyển đổi file PDF được quét trực tiếp sang tài liệu Word. CocoConvert có thể làm điều này chỉ trong một lần. Chỉ cần sử dụng công cụ chuyển đổi PDF sang Word và đảm bảo bạn đã bật tùy chọn OCR trong cài đặt – hãy tìm một nút gạt có nhãn 'Enable OCR for scanned documents' (Bật OCR cho tài liệu được quét). Khi tùy chọn này được bật, công cụ sẽ nhận dạng văn bản trước, sau đó cố gắng hết sức để tái tạo lại bố cục gốc trong Word, hoàn chỉnh với các font chữ và kiểu đoạn văn phù hợp. Cụm từ then chốt ở đây là 'cố gắng hết sức.' Chất lượng của việc tái tạo này có thể thay đổi rất nhiều tùy thuộc vào độ phức tạp của tài liệu của bạn. Một tài liệu đơn giản, một cột như thư hoặc bản ghi nhớ có thể sẽ chuyển đổi rất sạch sẽ. Một bố cục tạp chí nhiều cột, một bảng dữ liệu dày đặc, hoặc bất kỳ thứ gì có văn bản bao quanh hình ảnh chắc chắn sẽ yêu cầu chỉnh sửa thủ công. Bảng biểu là một thách thức khét tiếng; OCR có thể nhận dạng văn bản trong các ô một cách hoàn hảo, nhưng việc xây dựng lại cấu trúc bảng hoàn toàn phụ thuộc vào độ rõ ràng của các đường viền trong bản quét. Bạn phải dành thời gian để dọn dẹp kết quả đầu ra Word. Đối với một báo cáo 10 trang với định dạng tiêu chuẩn, hãy lên kế hoạch ít nhất 20–30 phút để sắp xếp lại font chữ, số trang và tiêu đề. Đối với một tài liệu 50 trang phức tạp với bảng biểu và bố cục hỗn hợp, thời gian sẽ nhiều hơn đáng kể. Hãy coi việc chuyển đổi OCR sang Word như một khởi đầu mạnh mẽ, chứ không phải một sản phẩm hoàn chỉnh.

Khi nào OCR không phải là công cụ phù hợp cho vấn đề

OCR là một giải pháp khắc phục mạnh mẽ, nhưng chỉ dành cho đúng vấn đề. Trước khi bạn đưa một file qua công cụ OCR, bạn nên chẩn đoán xem thực sự có gì sai với file PDF của mình, bởi vì không phải tất cả các file PDF không thể tìm kiếm được đều là các bản quét hình ảnh đơn giản. Đôi khi, một file PDF có văn bản thật, nhưng nó được mã hóa bằng một font tùy chỉnh không khớp với các ký tự tiêu chuẩn. Bạn sẽ biết đây là trường hợp đó nếu bạn có thể chọn văn bản, nhưng việc sao chép và dán nó lại cho ra kết quả vô nghĩa – các ký hiệu ngẫu nhiên, ô trống hoặc chữ cái lộn xộn. Đây là vấn đề mã hóa font chữ, chứ không phải vấn đề hình ảnh. Chạy OCR trên đó giống như băng bó vết thương trên một cái chân gãy; nó sẽ không khắc phục được vấn đề cơ bản và chỉ thêm một lớp lỗi tiềm ẩn khác. Giải pháp thực sự là xuất lại file PDF từ nguồn của nó với việc nhúng font tiêu chuẩn. Một thủ phạm khác là bảo vệ bằng mật khẩu. Một số file PDF được đặt để hạn chế sao chép văn bản, điều này có thể khiến chúng dường như không thể tìm kiếm được. OCR vô dụng ở đây vì dữ liệu văn bản có sẵn, chỉ là bị khóa. Bạn cần mật khẩu để gỡ bỏ hạn chế trước. Và tất nhiên, đôi khi một file PDF chỉ đơn giản là bị hỏng. Nếu cấu trúc file bị hỏng, nó thậm chí có thể không hiển thị đúng cách. Mặc dù CocoConvert có thể sửa chữa các lỗi nhỏ, một file bị hỏng nặng có thể sẽ không xử lý được chút nào. Cuối cùng, đừng nhầm lẫn OCR với một giải pháp toàn diện về khả năng tiếp cận. Nếu mục tiêu của bạn là làm cho một file PDF hoàn toàn có thể sử dụng được bởi các trình đọc màn hình cho người dùng khiếm thị, OCR chỉ là bước đầu tiên. Khả năng tiếp cận thực sự yêu cầu một cấu trúc được gắn thẻ (xác định tiêu đề, danh sách, thứ tự đọc và văn bản thay thế cho hình ảnh), đây là một quá trình riêng biệt, phức tạp hơn mà các công cụ tự động chưa xử lý tốt.

Mẹo thực tế để có kết quả OCR tốt hơn mỗi lần

Chất lượng của file nguồn là yếu tố lớn nhất quyết định độ chính xác của OCR. Rác vào thì rác ra. Tin tốt là, phần này hoàn toàn nằm trong tầm kiểm soát của bạn. Đầu tiên, hãy quét ở 300 DPI. Tôi không thể nhấn mạnh điều này đủ. Đây là tiêu chuẩn chung được các nhà lưu trữ và văn phòng luật sư khuyến nghị vì một lý do chính đáng. Ở 300 DPI, các ký tự sắc nét và rõ ràng. Ở 150 DPI, các font chữ nhỏ (bất cứ thứ gì dưới 10pt) bắt đầu trở nên mờ và khó phân biệt. Tăng lên 600 DPI chỉ mang lại những cải thiện nhỏ cho các file lớn hơn nhiều, vì vậy 300 là điểm tối ưu cho hầu hết các tài liệu. Đối với các tài liệu chỉ có văn bản, hãy sử dụng chế độ thang độ xám (grayscale) hoặc đen trắng. Các bản quét màu thường lớn hơn và có thể tạo ra các lỗi nén làm mờ văn bản. Trừ khi bạn cần giữ lại biểu đồ màu hoặc ảnh, hãy chọn thang độ xám. Và làm ơn, hãy lau sạch mặt kính máy quét của bạn. Vết bẩn nhỏ hay hạt bụi đó sẽ xuất hiện dưới dạng vệt đen trên mỗi trang quét của bạn, và công cụ OCR sẽ lãng phí thời gian cố gắng tìm hiểu xem đó là chữ gì. Bất kỳ ai từng vật lộn với một bản xuất PDF không như ý đều biết rằng những chi tiết nhỏ cũng rất quan trọng. Nếu bạn đang quét một cuốn sách, hãy ấn gáy sách xuống phẳng và quét từng trang một. Cố gắng quét hai trang cùng lúc sẽ tạo ra bóng và độ cong gần gáy sách, làm hỏng độ chính xác của OCR ở khu vực đó. Cuối cùng, đối với các dự án lớn, hãy nhớ rằng các gói trả phí của CocoConvert hỗ trợ xử lý hàng loạt. Nếu bạn có một thư mục chứa 50 file PDF đã quét cần xử lý, bạn có thể nén chúng lại và tải lên cùng lúc. Đây là một cách tiết kiệm thời gian đáng kể cho bất kỳ ai đang số hóa một kho lưu trữ cũ.

← Browse all articles