Metadata của file là gì? (Và tại sao bạn nên xóa nó trước khi chia sẻ)
Metadata của file thực sự là gì
Mỗi file bạn tạo ra đều có hai phần: nội dung bạn nhìn thấy, và một lớp dữ liệu bí mật mà hầu hết phần mềm tự động thêm vào. Lớp ẩn này chính là metadata—thông tin có cấu trúc về file, chứ không phải những gì có trong file. Tên gọi này bắt nguồn từ 'meta' trong tiếng Hy Lạp, có nghĩa là 'về'. Vì vậy, nó thực sự là dữ liệu về dữ liệu. Một bức ảnh JPEG không chỉ là các pixel; nó còn chứa metadata EXIF ghi chi tiết về mẫu máy ảnh, ống kính, tốc độ màn trập, ISO, và—quan trọng nhất—tọa độ GPS chính xác nơi bạn chụp nó. Một tài liệu Word lặng lẽ lưu trữ tên bạn, công ty của bạn (từ giấy phép Office), bạn đã dành bao nhiêu phút để chỉnh sửa, và thậm chí cả lịch sử văn bản đã bị xóa. Định dạng thay đổi tùy thuộc vào loại file. Ảnh thường sử dụng các tiêu chuẩn EXIF (Exchangeable Image File Format) và IPTC (International Press Telecommunications Council). File PDF có các thuộc tính riêng và cũng sử dụng XMP (Extensible Metadata Platform). Các file Office như DOCX và XLSX thực chất là các file nén ZIP, và chúng lưu trữ metadata trong một file XML có tên là core.xml bên trong. File âm thanh sử dụng thẻ ID3 để lưu ảnh bìa album và thông tin bản nhạc. File video sử dụng hỗn hợp dữ liệu ở cấp độ container (MOV, MP4) và cấp độ codec. Không có âm mưu nào ở đây cả. Các kỹ sư phần mềm thêm metadata vì những lý do chính đáng: các ứng dụng ảnh dùng nó để sắp xếp ảnh của bạn theo ngày và địa điểm, và trình phát nhạc của bạn cần thẻ ID3 để hiển thị bìa album. Rắc rối bắt đầu khi những file này rời khỏi "tổ ấm" và đi xa khỏi bối cảnh ban đầu của chúng.
Những trường dữ liệu cụ thể có thể làm lộ thông tin của bạn
Phải nói rõ là: không phải tất cả metadata đều là vấn đề. Việc biết một file được lưu ở độ phân giải 96 DPI chỉ là thông tin vặt vãnh vô dụng. Nhưng một số trường metadata phổ biến lại có những hệ lụy nghiêm trọng về quyền riêng tư và bảo mật. Tọa độ GPS trong ảnh là ví dụ nổi tiếng nhất. Chụp một bức ảnh trên iPhone của bạn khi Dịch vụ Định vị đang bật, và iOS sẽ nhúng vĩ độ và kinh độ chính xác của bạn vào các thẻ EXIF của file. Đăng bức ảnh đó lên mạng, và bất kỳ ai với một công cụ miễn phí như ExifTool hoặc Jeffrey's Exif Viewer đều có thể tìm ra nơi bạn sống, làm việc, hoặc hay lui tới. Điều này không phải là giả thuyết. Năm 2012, một nhà báo của Vice đã tìm ra nơi ẩn náu của John McAfee ở Guatemala một phần nhờ phân tích dữ liệu GPS trong một bức ảnh được công bố cùng với bài phỏng vấn. Các trường tác giả và tổ chức trong file Office được lấy từ giấy phép phần mềm của bạn. Nếu bạn soạn thảo một hợp đồng, file XML nội bộ của nó sẽ liệt kê tên đầy đủ và công ty của bạn. Gửi nó cho phía bên kia trong một cuộc đàm phán, và họ biết chính xác ai đã viết bản nháp đầu tiên và khi nào. Lịch sử sửa đổi và các thay đổi được theo dõi (tracked changes) là một bãi mìn khác, có khả năng làm lộ văn bản đã xóa, các bình luận riêng tư, và tên của mọi người đã chỉnh sửa. Đã có những vụ việc nổi tiếng khi các công ty luật gửi cho luật sư đối phương các tài liệu mà vô tình tiết lộ toàn bộ chiến lược của họ trong phần tracked changes. Đối với file PDF, khối XMP có thể chứa thông tin về phần mềm đã dùng để tạo file (tiết lộ hệ điều hành và cấp độ bản vá của bạn cho kẻ tấn công), tác giả, và thậm chí cả đường dẫn file gốc, như `C:\Users\sarah.johnson\Documents\ClientProposals\AcmeCorp_draft3.pdf`. Chỉ riêng đường dẫn đó đã tiết lộ tên của một nhân viên và cấu trúc thư mục nội bộ của bạn. Và đừng quên các ảnh xem trước thu nhỏ được nhúng. Trong một số ảnh RAW và các file Office cũ, chúng có thể hiển thị một ảnh chụp nhanh của tài liệu ở giai đoạn trước đó, nghĩa là nội dung bạn nghĩ mình đã xóa có thể vẫn còn nhìn thấy được.
Ai thực sự đọc metadata của file (Và đọc bằng cách nào)
Bạn có thể nghĩ rằng việc đọc metadata đòi hỏi một kỹ năng hacker nào đó. Không hề. Các công cụ miễn phí, phổ biến làm cho việc này trở nên dễ dàng đến nực cười. ExifTool của Phil Harvey là tiêu chuẩn vàng; nó chạy trên mọi hệ điều hành chính và đọc metadata từ hơn một trăm định dạng file. Chỉ cần gõ 'exiftool filename.jpg' trong terminal, và bạn sẽ thấy mọi thứ. Đối với những người thích giao diện đồ họa (GUI), có các trình bao bọc và công cụ dựa trên trình duyệt như Jimpl.com hoặc MetaPicz cho phép bạn tải ảnh lên và xem dữ liệu của nó ngay lập tức. Đối với tài liệu Office, còn đơn giản hơn nữa. Bạn không cần phần mềm đặc biệt nào cả. Chỉ cần đổi tên một file .docx thành .zip, mở file nén đó ra, và duyệt đến file docProps/core.xml bằng một trình soạn thảo văn bản thuần túy. Dữ liệu thô nằm ngay ở đó. Vậy ai thực sự đang xem những thông tin này? Nhiều người hơn bạn nghĩ. Các nhà báo kiểm tra mọi tài liệu họ nhận được từ các nguồn tin. Luật sư sử dụng metadata làm bằng chứng tại tòa; dấu thời gian EXIF đã được sử dụng để chứng minh một bức ảnh thực sự được chụp khi nào, làm phá sản lời khai của một nhân chứng. Gián điệp doanh nghiệp sử dụng nó để lập bản đồ tổ chức của đối thủ cạnh tranh. Các cơ quan thực thi pháp luật phụ thuộc rất nhiều vào nó. Tên sát nhân hàng loạt BTK đã bị nhận dạng vào đầu những năm 2000 một phần vì một chiếc đĩa mềm mà hắn gửi cho cảnh sát chứa metadata trong một tài liệu Word đã bị xóa, chỉ đến 'Nhà thờ Christ Lutheran' và một người dùng tên 'Dennis'—chính là kẻ sát nhân, Dennis Rader. Điều này không có ý gây hoang mang. Hầu hết mọi người chia sẻ một công thức nấu ăn không gặp nguy hiểm. Nhưng rủi ro tăng lên cùng với độ nhạy cảm của nội dung. Một freelancer gửi portfolio cho một khách hàng mới có hồ sơ rủi ro khác với một người chia sẻ ảnh gia đình trong một cuộc trò chuyện riêng tư.
Cách xóa metadata trước khi bạn chia sẻ
Giờ hãy đi vào thực tế. Đây là cách bạn có thể xóa metadata khỏi các file của mình, trên từng nền tảng. Nó dễ hơn bạn nghĩ. **Đối với ảnh trên Windows:** Nhấp chuột phải vào file, vào Properties, sau đó là tab Details. Ở dưới cùng, nhấp vào 'Remove Properties and Personal Information'. Thao tác này cho phép bạn tạo một bản sao sạch và xử lý hầu hết dữ liệu EXIF, mặc dù đôi khi nó có thể bỏ sót các thẻ XMP. **Đối với ảnh trên macOS:** Đừng dựa vào ứng dụng Preview tích hợp sẵn; nó nổi tiếng là làm việc này rất tệ. Lựa chọn tốt nhất là ImageOptim, một công cụ miễn phí và mã nguồn mở giúp loại bỏ triệt để dữ liệu EXIF, IPTC và XMP đồng thời nén file. Ngoài ra, bạn có thể xuất từ ứng dụng Photos, nhưng trước tiên hãy đảm bảo bạn đã tắt dữ liệu vị trí trong Photos > Preferences > iCloud > tắt mục 'Include location information for published items'. **Đối với file Word và Excel:** Trước khi gửi bất cứ thứ gì ra bên ngoài, hãy tập thói quen vào File > Info > Check for Issues > Inspect Document. Document Inspector sẽ tìm và đề nghị xóa các bình luận, sửa đổi, thông tin tác giả và các dữ liệu ẩn khác. Điều này rất cần thiết. Chỉ cần lưu ý rằng việc xóa lịch sử sửa đổi là vĩnh viễn, vì vậy hãy lưu một bản gốc cho riêng mình nếu bạn cần. **Đối với file PDF:** Bất kỳ ai đã từng vật lộn với một file PDF cứng đầu đều biết chúng có cuộc sống riêng. Đối với metadata, giải pháp mạnh mẽ nhất là chức năng Redact > Sanitize Document trong phiên bản trả phí Adobe Acrobat Pro. Nếu bạn không có Acrobat, một cách giải quyết tạm ổn là 'in' file ra một file PDF mới, vì trình in PDF tích hợp của macOS sẽ xóa hầu hết, nhưng không phải lúc nào cũng là tất cả, metadata. **Sử dụng CocoConvert:** Khi bạn chuyển đổi một file bằng CocoConvert, như chuyển DOCX thành PDF hoặc JPEG thành PNG, quá trình này tự nhiên loại bỏ hầu hết metadata gốc. Chúng tôi đang xây dựng một file hoàn toàn mới, vì vậy những thứ như dữ liệu GPS EXIF và các trường tác giả của Word không được chuyển sang. Hãy coi đó là một tác dụng phụ có lợi, chứ không phải là một tính năng bảo mật chuyên dụng. Đối với các file thực sự nhạy cảm, hãy sử dụng một công cụ làm sạch chuyên dụng trước. Chúng tôi là một công cụ chuyển đổi, không phải là một công cụ pháp lý, và chúng tôi muốn thành thật về điều đó.
Quá trình chuyển đổi sẽ xóa (và không xóa) những gì
Vì CocoConvert là một công cụ chuyển đổi file, hãy nói cụ thể về những gì xảy ra với metadata trong một tác vụ. Khi bạn chuyển đổi một file JPEG sang PNG, chúng tôi tạo một file PNG mới từ các pixel nguồn. PNG có cách riêng để lưu trữ metadata (trong các khối tEXt, iTXt, và zTXt), nhưng chúng tôi không sao chép dữ liệu EXIF gốc vào chúng. Trên thực tế, điều này có nghĩa là tọa độ GPS, mẫu máy ảnh và thông tin ống kính từ file JPEG của bạn sẽ biến mất trong file PNG cuối cùng. Điều tương tự cũng đúng cho các chuyển đổi từ JPEG sang WebP. Khi bạn chuyển đổi một file DOCX sang PDF, chúng tôi đang tạo ra file PDF từ giao diện cuối cùng, đã được kết xuất của tài liệu. Trường tác giả trong file PDF mới thường sẽ liệt kê phần mềm chuyển đổi, chứ không phải tác giả gốc từ Word. Tất cả các thay đổi được theo dõi và lịch sử sửa đổi của bạn đều được làm phẳng và biến mất, vì một file PDF chỉ đại diện cho một trạng thái cuối cùng đó. Nhưng có một vài cái bẫy. Cái lớn nhất là các file được nhúng. Nếu tài liệu Word nguồn của bạn chứa một bức ảnh được chèn vào có dữ liệu EXIF riêng, bức ảnh đó có thể giữ lại metadata của nó khi được nhúng vào bên trong file PDF cuối cùng. Vì vậy, file PDF vẫn có thể chứa dữ liệu GPS từ bức ảnh đó. Ngoài ra, điều này có lẽ là hiển nhiên, nhưng chúng tôi vẫn sẽ nói: việc chuyển đổi không xóa thông tin nhạy cảm khỏi nội dung của file. Nếu địa chỉ của bạn được gõ ra trong tài liệu, nó vẫn sẽ ở đó. Đó là nội dung, không phải metadata. Đối với các file âm thanh, việc chuyển đổi một file MP3 sang AAC với CocoConvert không sao chép các thẻ ID3 theo mặc định. Điểm mấu chốt là: chuyển đổi với CocoConvert là một tuyến phòng thủ đầu tiên tuyệt vời, giúp giảm đáng kể việc lộ metadata cho việc sử dụng hàng ngày. Chỉ cần đừng nhầm lẫn nó với một công cụ làm sạch chuyên dụng, bảo mật cao.
Metadata trong bối cảnh chuyên nghiệp và pháp lý
Nếu bạn làm việc trong lĩnh vực luật, tài chính, y tế, hoặc một ngành công nghiệp được quản lý khác, metadata không chỉ là một thử nghiệm tư duy về quyền riêng tư—nó là một bãi mìn về tuân thủ quy định. Ví dụ, theo HIPAA, metadata có thể là một phần của thông tin sức khỏe được bảo vệ (PHI). Một bản quét y tế có thể có dữ liệu GPS chỉ đến một phòng khám, và một thẻ nghệ sĩ với tên của bệnh nhân. Sự kết hợp đó là PHI, ngay cả khi bản thân hình ảnh đã được ẩn danh. Văn phòng Dân quyền của HHS đặc biệt yêu cầu phải xem xét metadata khi khử nhận dạng hồ sơ. Trong các thủ tục tố tụng pháp lý, metadata hoàn toàn có thể bị yêu cầu cung cấp. Quy tắc 34 của Luật Tố tụng Dân sự Liên bang ở Mỹ bao gồm tất cả thông tin được lưu trữ điện tử (ESI), và các tòa án đã nhiều lần xác nhận rằng metadata là một phần của ESI đó. Nếu bạn được yêu cầu bảo quản tài liệu cho một vụ kiện và bạn xóa metadata, đó là hành vi hủy hoại bằng chứng. Đó là một sai lầm tai hại có thể khiến bạn thua kiện. Đối với các nhà báo và nguồn tin của họ, điều này không phải là lý thuyết; đó là vấn đề an toàn tính mạng. Đây là lý do tại sao các công cụ như SecureDrop, được sử dụng bởi Freedom of the Press Foundation, The New York Times, và The Guardian, tồn tại—chúng tự động xóa metadata khỏi các bài nộp để bảo vệ nguồn tin. Nếu bạn là một nguồn tin, bạn phải giả định rằng mọi file bạn gửi đều được gắn thẻ nhận dạng của bạn trừ khi bạn đã tự tay làm sạch nó. Trong thế giới sáp nhập và mua lại doanh nghiệp, metadata trong một phòng dữ liệu có thể tiết lộ các chiến lược đàm phán, các định giá riêng tư, và danh tính của các cố vấn. Các đối tác thông minh chắc chắn sẽ tìm kiếm thông tin này. Các công ty luật lớn hiện nay coi việc xem xét metadata là một bước bắt buộc cho bất kỳ giao dịch nào. Đối với hầu hết chúng ta, các rủi ro chuyên môn thấp hơn. Nhưng nguyên tắc là như nhau: hãy biết các file của bạn đang nói gì về bạn trước khi chúng rời khỏi tầm kiểm soát của bạn.
Danh sách kiểm tra thực tế trước khi bạn chia sẻ bất kỳ file nào
Bạn không cần phải nhớ mọi quy tắc khó hiểu. Đối với 99% các tình huống, danh sách kiểm tra thực tế này là tất cả những gì bạn cần trước khi nhấn 'gửi' hoặc 'tải lên'. **1. Xác định loại file và rủi ro metadata của nó.** Chỉ cần nhớ những cái lớn. Ảnh có thể có dữ liệu GPS. Tài liệu Office có thể có lịch sử tác giả và sửa đổi. PDF có thể có dữ liệu tác giả và đường dẫn tạo file. File âm thanh mang thẻ ID3. File video mang GPS, mẫu thiết bị, và dấu thời gian tạo. **2. Đánh giá đối tượng của bạn.** File này dành cho ai? Gửi ảnh gia đình cho mẹ bạn là rủi ro thấp. Đăng ảnh lên một diễn đàn công cộng hoặc gửi một đề xuất cho một khách hàng mới là rủi ro cao hơn. Hãy điều chỉnh nỗ lực của bạn cho phù hợp với mối đe dọa thực tế. **3. Sử dụng đúng công cụ cho công việc.** Trên Windows, sử dụng công cụ xóa thuộc tính tích hợp sẵn hoặc ImageOptim trên Mac. Đối với các file Office, hãy chạy Document Inspector. Đối với file PDF, sử dụng chức năng Sanitize của Acrobat hoặc in lại ra PDF. Đối với các công việc hàng loạt hoặc thay đổi định dạng, quá trình chuyển đổi của CocoConvert sẽ vô tình loại bỏ hầu hết metadata đặc trưng của định dạng như một sản phẩm phụ. **4. Xác minh kết quả.** Sau khi xóa hoặc chuyển đổi, hãy kiểm tra kết quả. Trên Windows, nhấp chuột phải > Properties > Details. Trên Mac, mở trong Preview và vào Tools > Show Inspector > EXIF. Sử dụng ExifTool từ dòng lệnh để có một bản kết xuất đầy đủ: 'exiftool -all filename.jpg'. Đừng cho rằng việc xóa đã thành công — hãy xác nhận nó. **5. Hãy nhớ rằng nội dung không phải là metadata.** Điều này rất quan trọng. Không có công cụ nào sẽ xóa số an sinh xã hội của bạn nếu bạn đã gõ nó vào tài liệu. Đó là một vấn đề về nội dung, và bạn cần phải xem xét riêng các phần có thể nhìn thấy của file. **6. Đối với các tình huống có rủi ro cao, hãy sử dụng các công cụ chuyên dụng.** MAT2 (Metadata Anonymisation Toolkit 2) là một công cụ mã nguồn mở được các chuyên gia bảo mật sử dụng, xử lý hàng chục định dạng file và kỹ lưỡng hơn hầu hết các lựa chọn cho người tiêu dùng. Nó có sẵn trên Linux và thông qua hệ điều hành Tails, được thiết kế cho các trường hợp sử dụng có rủi ro cao. Metadata không phải là thứ xấu xa. Nó là một tính năng hữu ích đã trở thành một gánh nặng khi các file của chúng ta bắt đầu đi khắp thế giới chỉ bằng một cú nhấp chuột. Hiểu được những gì file của bạn mang theo—và dành 30 giây để làm sạch chúng trước khi chia sẻ—là một thói quen nhỏ giúp cải thiện đáng kể quyền riêng tư của bạn.