Skip to content
Back to Blog
informational

EPUB là gì? Chuẩn Sách điện tử Mở

2026-05-17 9 phút đọc

Những điều cơ bản: EPUB thực sự là gì

EPUB là viết tắt của Electronic Publication (Xuất bản điện tử), nhưng thực chất nó là một chuẩn chung cho sách kỹ thuật số. Đây là một định dạng mở, hiện được quản lý bởi World Wide Web Consortium (W3C) sau khi họ tiếp quản từ IDPF vào năm 2017. Về cốt lõi, một file .epub chỉ là một file nén ZIP. Bên trong, bạn sẽ tìm thấy các thành phần xây dựng nên một trang web hiện đại: HTML cho phần văn bản, CSS để tạo kiểu, hình ảnh, và một vài file XML để điều phối cách tất cả chúng kết hợp với nhau trong trình đọc sách điện tử của bạn. Sự khác biệt chính giữa EPUB và một thứ gì đó như PDF là bố cục co giãn (reflowable layout) của nó. Đây chính là siêu năng lực của nó. Văn bản tự động ngắt dòng và thay đổi kích thước để vừa với mọi màn hình, dù đó là một chiếc Kobo 6 inch nhỏ xíu, một chiếc iPad rộng rãi, hay một màn hình máy tính để bàn khổng lồ. Với tư cách là người đọc, bạn có quyền kiểm soát. Bạn có thể thay đổi cỡ chữ, kiểu chữ, giãn cách, và cả màu nền, và cuốn sách sẽ tự động thích ứng. Vì nó lưu trữ văn bản dưới dạng văn bản thực sự—chứ không phải hình ảnh tĩnh của từ ngữ như một file PDF được quét—một cuốn tiểu thuyết 400 trang có thể chỉ là một file nhỏ 500 KB. Định dạng này đã phát triển theo thời gian. EPUB 2, từ năm 2007, đã đặt nền móng. Sau đó là EPUB 3, được hoàn thiện lần đầu vào năm 2011 và được cập nhật gần đây nhất là phiên bản 3.3 vào năm 2023. Phiên bản hiện đại này đã mang đến rất nhiều công nghệ web: HTML5, CSS3, JavaScript cho tính tương tác, MathML cho các phương trình phức tạp, và thậm chí cả âm thanh và video nhúng. Nó cũng giới thiệu các tính năng hỗ trợ tiếp cận mạnh mẽ như ARIA landmarks. Mặc dù hầu hết các thiết bị và ứng dụng hiện đại đều xử lý tốt EPUB 3, bạn vẫn sẽ tìm thấy một số trình đọc sách điện tử cũ hơn chỉ hỗ trợ EPUB 2 để hiển thị văn bản đơn giản. Cần làm rõ một điều: EPUB không giống như MOBI hay AZW3. Đó là các định dạng độc quyền của Kindle của Amazon. Mua một cuốn sách từ Amazon, bạn sẽ nhận được một file bị khóa trong hệ sinh thái của họ. Mua từ Kobo, Google Play Books, Apple Books, hoặc gần như bất kỳ hiệu sách độc lập nào, bạn sẽ nhận được một file EPUB.

Bên trong một file EPUB: Giải thích cấu trúc

Đây là một mẹo hay: lấy bất kỳ file .epub nào, đổi phần mở rộng của nó thành .zip, và giải nén nó. Những gì bạn tìm thấy bên trong là một cấu trúc thư mục được tổ chức hoàn hảo. Ngay ở cấp cao nhất, bạn sẽ luôn thấy một file tên là `mimetype`. File nhỏ xíu này chỉ chứa một dòng—`application/epub+zip`—và nó phải là thứ đầu tiên trong file nén, không được nén. Điều này cho phép phần mềm nhận ra ngay lập tức file là một EPUB mà không cần phải đào sâu vào bên trong. Tiếp theo, hãy nhìn vào thư mục `META-INF`. Bạn sẽ tìm thấy một file `container.xml`. Công việc duy nhất của nó là trỏ đến tài liệu gói chính, thường được gọi là `content.opf` hoặc `package.opf`. File OPF này là hệ thần kinh trung ương của cuốn sách. Nó là một danh sách tổng hợp của mọi file nội dung, nó xác định thứ tự đọc các chương, và nó chứa tất cả các siêu dữ liệu quan trọng: tiêu đề, tác giả, ngôn ngữ, ISBN, ngày xuất bản, và nhà xuất bản. Nội dung thực sự của cuốn sách—văn bản và hình ảnh—nằm trong một thư mục, thường được gọi là `OEBPS` hoặc `Content`. Đây là nơi bạn sẽ tìm thấy các file XHTML riêng lẻ cho mỗi chương, các file CSS điều khiển giao diện của cuốn sách, và một thư mục cho hình ảnh. Bạn cũng sẽ thấy một file `toc.ncx` (cho các trình đọc EPUB 2 cũ hơn) và một file `nav.xhtml` (cho EPUB 3 hiện đại). Hai file này cung cấp năng lượng cho mục lục mà bạn sử dụng để chuyển giữa các chương trên trình đọc sách điện tử của mình. Vậy tại sao cấu trúc này lại quan trọng? Bởi vì nếu một file EPUB bị lỗi, bạn thường có thể tự sửa nó. Bất cứ ai đã từng bó tay trước một file bị trục trặc đều biết sự bực bội đó. Với EPUB, bạn có thể 'mở nắp capo' xem bên trong. Chỉ cần mở file nén, tìm file XHTML bị lỗi, sửa mã trong một trình soạn thảo văn bản, rồi nén lại tất cả (nhớ đặt `mimetype` vào trước, không nén!) trước khi đổi tên nó trở lại thành .epub. Có một sự hài lòng thực sự trong việc đó. Bạn thậm chí có thể sử dụng các công cụ miễn phí như EPUBCheck của W3C để xác định chính xác file và số dòng gây ra sự cố. Đối với các nhà phát triển, cấu trúc mở này cũng là điều làm cho EPUB trở nên linh hoạt. Bạn muốn thêm một font chữ tùy chỉnh? Chỉ cần thả một file `.woff2` vào file nén và gọi nó từ CSS của bạn bằng một quy tắc `@font-face` tiêu chuẩn.

EPUB và PDF: Chọn định dạng phù hợp

Cuộc tranh luận EPUB và PDF là một câu chuyện kinh điển, nhưng nó dựa trên một tiền đề sai lầm. Chúng không thực sự là đối thủ cạnh tranh; chúng là những công cụ được thiết kế cho những công việc hoàn toàn khác nhau. Không có cái nào 'tốt hơn' cái nào—chúng chỉ vượt trội trong những bối cảnh khác nhau. PDF là tất cả về việc bảo toàn một bố cục hình ảnh cố định. Hãy nghĩ đến các bài báo khoa học có hai cột, các trang tạp chí bóng bẩy, hay các biểu mẫu của chính phủ cần được điền. Những thứ này *phải* là PDF. Kích thước trang được khóa lại, phông chữ được nhúng, và tài liệu bạn thấy trên màn hình chính xác là những gì sẽ được in ra. Khả năng dự đoán tĩnh đó là toàn bộ lý do tồn tại của PDF. EPUB, mặt khác, ưu tiên khả năng đọc trên mọi màn hình. Tiểu thuyết, các bài viết dài, và sách hướng dẫn bạn cần đọc trên điện thoại là hoàn hảo cho EPUB. Văn bản co giãn của nó có nghĩa là người đọc có thể tăng cỡ chữ lên 24pt để dễ nhìn hơn, và các từ chỉ đơn giản là tự sắp xếp lại để vừa vặn. Hãy thử làm điều đó với một file PDF, và bạn sẽ bị mắc kẹt trong một cơn ác mộng của việc chụm-để-phóng-to, thu-phóng, và cuộn ngang khiến việc đọc trở nên bất khả thi. Đôi khi, nền tảng sẽ quyết định thay bạn. Apple Books trên iOS và macOS được xây dựng cho EPUB; mặc dù nó có thể *mở* một file PDF, bạn sẽ mất tất cả các tính năng đọc tốt nhất như điều khiển phông chữ, chế độ ban đêm, và đồng bộ hóa đa thiết bị. Hệ sinh thái Kindle của Amazon thì ngược lại. Nó đã hoàn toàn từ bỏ hỗ trợ EPUB gốc. Bạn phải chuyển đổi các file EPUB của mình sang AZW3 hoặc sử dụng dịch vụ Send to Kindle, dịch vụ này sẽ thực hiện chuyển đổi trên máy chủ của Amazon. Khi nói đến hỗ trợ tiếp cận, một file EPUB 3 được làm tốt là không thể đánh bại. Các trình đọc màn hình có thể sử dụng cấu trúc HTML ngữ nghĩa của cuốn sách để điều hướng theo chương, tiêu đề, hoặc landmark. Mặc dù một 'PDF được gắn thẻ' về lý thuyết có thể làm điều này, trong thực tế, việc gắn thẻ đó thường bị hỏng hoặc hoàn toàn thiếu. Đặc tả EPUB Accessibility 1.1 cung cấp cho các nhà xuất bản một tiêu chuẩn rõ ràng để hướng tới. Một ngoại lệ là EPUB bố cục cố định. Mặc dù định dạng này tồn tại, hỗ trợ từ các trình đọc là một bãi mìn. Lời khuyên của tôi? Nếu bạn thực sự cần một bố cục hoàn hảo đến từng pixel, hãy gắn bó với PDF và làm cho nó dễ tiếp cận nhất có thể. Đừng cố ép EPUB vào một vai trò mà nó không được tạo ra để đảm nhận.

DRM, Phân phối và 'Mở' thực sự có nghĩa là gì

Khi chúng ta nói EPUB là một 'chuẩn mở', điều đó có nghĩa là bản thiết kế là miễn phí cho bất kỳ ai sử dụng. Đặc tả kỹ thuật được công khai, không tốn chi phí để triển khai và không một công ty nào sở hữu nó. Đây là lý do tại sao một hệ sinh thái lành mạnh các ứng dụng EPUB đã phát triển mạnh mẽ. Bạn có rất nhiều lựa chọn, từ các công cụ dành cho người dùng chuyên sâu như Calibre và Thorium Reader đến các ứng dụng tích hợp sẵn từ Apple, Google và Kobo, cộng với các lựa chọn chuyên biệt như Foliate cho Linux. Nhưng 'định dạng mở' không có nghĩa là 'không có DRM'. Đây là một sự khác biệt cốt yếu. Các nhà xuất bản và nhà bán lẻ thường bọc các file EPUB của họ trong một lớp Quản lý bản quyền kỹ thuật số (DRM) trước khi bán chúng. Hệ thống phổ biến nhất là ADEPT DRM của Adobe, mà bạn sẽ tìm thấy trên các sách điện tử mượn từ thư viện công cộng qua OverDrive hoặc Libby. Kobo và Apple cũng có DRM độc quyền của riêng họ. File kết quả vẫn là một EPUB bên dưới, nhưng nó là một file bị khóa chỉ có thể mở trên các thiết bị được ủy quyền với các ứng dụng được ủy quyền. Đối với việc chuyển đổi file, DRM là một bức tường gạch. CocoConvert có thể dễ dàng chuyển đổi các file EPUB không được bảo vệ sang và từ PDF, DOCX, HTML, và các định dạng khác. Nhưng nó không thể, và sẽ không, đụng đến một file được bảo vệ bằng DRM. Cố gắng gỡ bỏ DRM để cho phép chuyển đổi là bất hợp pháp theo các luật như DMCA ở Mỹ và Chỉ thị Bản quyền của EU. Nếu bạn sở hữu một cuốn sách có DRM và muốn đọc nó trên một thiết bị khác, lựa chọn hợp pháp duy nhất của bạn là xem cửa hàng có cung cấp bản tải xuống không có DRM hay không, hoặc chỉ đơn giản là sử dụng ứng dụng được chỉ định của nhà bán lẻ. Tin tốt là EPUB không có DRM phổ biến hơn bạn nghĩ. Các nhà xuất bản lớn như Tor Books và O'Reilly đã xây dựng danh tiếng của họ bằng cách bán các file không có DRM. Hầu hết các nhà xuất bản học thuật truy cập mở cũng vậy. Bạn cũng có thể tìm thấy chúng trên các cửa hàng như Smashwords và Humble Bundle, hoặc bằng cách mua trực tiếp từ trang web của tác giả. Đây là những file mà bạn thực sự sở hữu—bạn có thể sao lưu, chuyển đổi, và đọc chúng trong bất kỳ ứng dụng nào bạn chọn, mãi mãi.

Tạo và Chỉnh sửa file EPUB

Tạo một file EPUB từ đầu có thể đơn giản hoặc phức tạp tùy theo ý bạn, phụ thuộc vào công cụ của bạn. Đối với những người quen thuộc với HTML cơ bản, trình soạn thảo mã nguồn mở và miễn phí Sigil là điểm khởi đầu kinh điển; nó có giao diện trực quan và một trình xác thực tích hợp để phát hiện lỗi. Các tác giả tự xuất bản trên macOS thường tin dùng Vellum, một ứng dụng trả phí tạo ra những cuốn sách được định dạng đẹp mắt từ các mẫu, mặc dù nó đi kèm với mức giá khá chát là 199.99 đô la. Và nhiều nhà văn đã sử dụng Scrivener, có thể biên dịch một bản thảo trực tiếp sang EPUB 3 ngay từ menu `File > Compile`. Các nhà phát triển và người viết tài liệu kỹ thuật có bộ công cụ mạnh mẽ của riêng họ. Sphinx, công cụ đằng sau phần lớn tài liệu của Python, có thể tạo ra một file EPUB 3 dễ dàng như cách nó tạo ra HTML hay PDF. Sau đó là Pandoc, con dao đa năng Thụy Sĩ của việc chuyển đổi tài liệu. Nó có thể tạo một file EPUB từ hầu hết mọi thứ—Markdown, DOCX, LaTeX—với một lệnh đơn giản như `pandoc input.docx -o output.epub --epub-cover-image=cover.jpg`. Chỉnh sửa một file EPUB hiện có là lúc mọi thứ trở nên thú vị. Nếu bạn có một file với định dạng xiên xẹo hoặc các chương sai thứ tự, bạn có thể sử dụng Sigil để 'mở nắp capo' xem xét. Trình duyệt Sách (Book Browser) của nó hiển thị toàn bộ cấu trúc file, cho phép bạn đi sâu vào file XHTML hoặc CSS cụ thể để khắc phục sự cố trực tiếp. Calibre cũng có một trình chỉnh sửa ebook mạnh mẽ cung cấp các tính năng tương tự. Tuy nhiên, để chỉ tinh chỉnh siêu dữ liệu, không gì có thể đánh bại giao diện chính của Calibre. Sửa tên tác giả, thêm thẻ sê-ri, hoặc sửa lại năm xuất bản chỉ cần một cú nhấp chuột phải. Nó thậm chí có thể tự động lấy siêu dữ liệu chính xác bằng cách sử dụng ISBN, một tính năng tiết kiệm thời gian cực kỳ. Tuy nhiên, hãy cẩn thận: nếu bạn đang cố gắng chỉnh sửa một file EPUB bố cục cố định, như sách tranh thiếu nhi hay một bố cục tạp chí phức tạp, bạn sẽ đối mặt với một thử thách. Những file này thường sử dụng CSS và JavaScript phức tạp không thể gỡ rối bằng một trình chỉnh sửa trực quan đơn giản. Bạn sẽ cần hiểu biết sâu về đặc tả EPUB và phát triển web để thực hiện các thay đổi mà không làm hỏng mọi thứ.

Chuyển đổi file EPUB: Cái gì hiệu quả và cái gì không

Chuyển đổi file EPUB là một công việc phổ biến, nhưng chất lượng của kết quả hoàn toàn phụ thuộc vào định dạng nguồn và định dạng đích. Đây không phải là một quy trình phù hợp cho mọi trường hợp. Chuyển đổi từ EPUB sang PDF thường là một lựa chọn an toàn, đặc biệt đối với các cuốn sách tập trung vào văn bản. Một công cụ như CocoConvert sẽ hiển thị nội dung của EPUB thành một file PDF sạch sẽ, được phân trang, hoàn hảo cho việc in ấn hoặc lưu trữ tiểu thuyết và báo cáo. Quá trình này gặp trở ngại với các file phức tạp hơn. Các bố cục CSS cầu kỳ, các phông chữ không được nhúng, và bất kỳ tương tác nào dựa trên JavaScript từ một file EPUB 3 sẽ bị mất đi trong quá trình chuyển đổi sang một file PDF tĩnh. Bố cục thậm chí có thể bị vỡ, đòi hỏi bạn phải dọn dẹp nó thủ công. Biến một file EPUB thành một file DOCX là cách tốt nhất để đưa văn bản vào Microsoft Word để chỉnh sửa. Việc chuyển đổi sẽ bảo toàn cấu trúc thiết yếu—các tiêu đề, đoạn văn, chữ in đậm và in nghiêng, hình ảnh cơ bản—nhưng chỉ có vậy thôi. Đừng mong đợi CSS cầu kỳ, chữ hoa đầu đoạn (drop caps), hoặc các bố cục tùy chỉnh sẽ tồn tại sau chuyến đi này. Cách tốt nhất để nghĩ về file DOCX kết quả là một bản nháp sạch, có thể chỉnh sửa, chứ không phải là một tài liệu đã định dạng hoàn chỉnh. Đi từ PDF sang EPUB là quá trình chuyển đổi khó khăn nhất, một tình huống thực sự 'kết quả có thể khác nhau tùy trường hợp'. Nếu file PDF được xuất từ một nguồn dựa trên văn bản như Word, một công cụ chuyển đổi như CocoConvert thường có thể trích xuất văn bản một cách sạch sẽ và cấu trúc nó thành một file EPUB có thể sử dụng được. Nhưng nếu bạn có một file PDF được quét—thực chất chỉ là một tập hợp các hình ảnh của các trang—bạn sẽ phải đối mặt với một hành trình gian nan hơn nhiều. Điều này đòi hỏi Nhận dạng Ký tự Quang học (OCR) để biến những hình ảnh đó trở lại thành văn bản, một quá trình không bao giờ hoàn hảo. OCR của CocoConvert rất tốt, nhưng độ chính xác của nó phụ thuộc vào chất lượng bản quét. Ngay cả với một bản quét sắc nét, 300 DPI, độ chính xác ký tự 98% vẫn có nghĩa là hàng tá lỗi chính tả trong một cuốn sách 300 trang mà bạn sẽ phải tìm và sửa. Cuối cùng, chuyển đổi HTML sang EPUB thường rất đơn giản, với một lưu ý lớn: đầu vào rác thì đầu ra cũng rác. Nếu nguồn của bạn là HTML sạch, có ngữ nghĩa—như một bài viết trên web được cấu trúc tốt—nó sẽ được ánh xạ một cách đẹp đẽ vào các chương EPUB. Nếu bạn cung cấp cho công cụ chuyển đổi một mớ HTML rối rắm với các kiểu nội tuyến và bố cục được xây dựng từ bảng, bạn sẽ nhận được một file EPUB lộn xộn, rối rắm ở đầu ra.

Khả năng tiếp cận của EPUB và Tình hình hiện tại của Chuẩn

Hỗ trợ tiếp cận là nơi EPUB 3 thực sự tỏa sáng, và có thể cho rằng đây là tính năng quan trọng nhất của định dạng này. Bằng cách xây dựng trên các tiêu chuẩn web, nó hỗ trợ các thành phần HTML5 ngữ nghĩa (`nav`, `aside`, v.v.), các vai trò ARIA cho công nghệ hỗ trợ, văn bản thay thế (alt text) phù hợp cho hình ảnh, và siêu dữ liệu xác định thứ tự đọc hợp lý. Điều này đảm bảo rằng một trình đọc màn hình điều hướng cuốn sách theo ý định của tác giả, chứ không chỉ theo bố cục trực quan trên trang. Đây không chỉ là một bộ sưu tập lỏng lẻo các phương pháp hay nhất. Đặc tả chính thức EPUB Accessibility 1.1 (một Khuyến nghị của W3C kể từ tháng 5 năm 2023) đã đặt ra các yêu cầu cụ thể. Một file EPUB dễ tiếp cận phải có mục lục đầy đủ, thứ tự đọc hợp lý, văn bản thay thế, và độ tương phản màu phù hợp. Các nhà xuất bản tuân thủ thậm chí có thể nhúng siêu dữ liệu vào file để chứng nhận rằng họ đáp ứng một tiêu chuẩn cụ thể, như WCAG 2.1 AA. Tuy nhiên, trong thực tế, chất lượng hỗ trợ tiếp cận của EPUB rất khác nhau. Các nhà xuất bản học thuật và thương mại lớn đã cải thiện rất nhiều, nhờ vào áp lực pháp lý và quy định từ những thứ như Hiệp ước Marrakesh và Đạo luật Tiếp cận Châu Âu (có hiệu lực đầy đủ vào tháng 6 năm 2025). Nhưng một số lượng lớn sách, đặc biệt là từ các nhà xuất bản nhỏ và các tác giả tự xuất bản, vẫn được phát hành với những lỗ hổng tiếp cận rõ rệt: thiếu văn bản thay thế, không khai báo thứ tự đọc, và điều hướng không đầy đủ. Đặc tả kỹ thuật chỉ tốt khi được triển khai tốt. Đối với những độc giả cần những tính năng này, việc lựa chọn ứng dụng rất quan trọng. Trên máy tính để bàn, Thorium Reader miễn phí là tiêu chuẩn vàng về khả năng tiếp cận, với sự hỗ trợ tuyệt vời cho việc chuyển văn bản thành giọng nói, tô sáng câu, và điều hướng bằng ARIA landmarks. Trên di động, Apple Books trên iOS thực hiện rất tốt việc tôn trọng các tính năng EPUB dễ tiếp cận khi được sử dụng với trình đọc màn hình VoiceOver. Công việc vẫn chưa kết thúc. Nhóm làm việc EPUB của W3C vẫn đang tích cực phát triển tiêu chuẩn này. Hiện tại, họ đang tập trung vào việc cải thiện hỗ trợ cho sách nói, cung cấp hướng dẫn rõ ràng hơn về việc sử dụng script, và giải quyết vấn đề hóc búa về khả năng tiếp cận của bố cục cố định. Vấn đề cuối cùng đó là một bài toán khó giải, và đặc tả kỹ thuật vẫn chưa có một giải pháp hoàn hảo.