PDFのウォーターマークを(合法的に)削除する方法
合法的なウォーターマーク除去とは
ツールに触れる前に、まず「合法的」とはどういう意味か、はっきりさせておきましょう。この線引きは、法的にも倫理的にも重要です。削除が許可されているウォーターマークとは、あなた自身、あなたの所属組織、またはライセンサーが明示的に削除を許可したものです。一般的なシナリオは非常に分かりやすいものです。例えば、自分で作成した文書に「DRAFT」というウォーターマークを追加し、最終的なクリーンなバージョンが必要になった場合。あるいは、業者からウォーターマーク付きの校正刷りが送られてきて、支払い後に誤って同じウォーターマーク付きのファイルが再度送られてきた場合などです。また、料金を支払ってライセンスを取得したバージョンではなく、誤ってストックフォトのPDFプレビューをダウンロードしてしまったということもあるかもしれません。では、合法的でないのはどのような場合でしょうか?他人の著作物から著作権表示を削除したり、購入していない文書から「サンプル」のウォーターマークを剥がしたり、ライセンスされたコンテンツの権利管理を回避したりすることです。Adobe Acrobat自身の利用規約でもこの点は非常に明確で、第三者の知的財産マーキングを削除するためにツールを使用することを禁止しています。米国では、裁判所は不正なウォーターマークの削除を、合衆国法典第17編第1202条に基づく著作権侵害の潜在的な証拠として扱ってきました。この記事では、あくまでご自身に削除する権利があるウォーターマークを対象としています。
PDFにウォーターマークが埋め込まれる仕組みを理解する
すべてのウォーターマークが同じように作られているわけではありません。その違いを知ることが、実際に機能する除去方法を選ぶ鍵となります。PDFのウォーターマークには、技術的に主に3つの種類があります。最も一般的なのはコンテンツストリーム・ウォーターマークで、テキストや画像が半透明のグラフィックとしてページのコンテンツに直接描画されるものです。これは、Adobe Acrobatの組み込み機能「透かし」で作成されるものです(「文書」メニュー → 「透かし」 → 「追加」)。2つ目は、PDFの別レイヤー、専門的にはオプショナルコンテントグループ(OCG)と呼ばれるものです。ウォーターマークが独自のレイヤーにある場合、Acrobatでレイヤーパネルを開き(「表示」→「表示切り替え」→「ナビゲーションパネル」→「レイヤー」)、チェックボックスを外すだけで非表示にできます。編集は不要です。3つ目の最も困難なタイプは、スキャンされた、または画像ベースのPDFに焼き付けられた、フラット化されたラスター・ウォーターマークです。この場合、ウォーターマークのピクセルはページ画像自体の一部となっており、ファイルレベルではコンテンツと区別がつきません。これらを削除するには画像編集が必要で、しばしば見苦しい跡が残ります。時間を節約するために、まずどのタイプかを見極めましょう。ファイルを開いて、最初にレイヤーパネルを確認します。「ウォーターマーク」や「Draft」という名前のレイヤーがあればラッキーです。15秒ほどで修正できます。レイヤーがない場合は、Acrobat Proでファイルを開き、「ツール」→「PDFを編集」に進みます。ウォーターマークのテキストや画像だけをクリックして選択できますか?それはコンテンツストリーム・オブジェクトです。クリックするとページ全体が1つの画像として選択される場合は、フラット化されたファイルを扱っており、選択肢はかなり限られます。
Adobe Acrobatで自分で追加したウォーターマークを削除する
Acrobat独自のツールを使ってマークを追加した場合、その削除は簡単です。Acrobat Pro(バージョン2020以降)でPDFを開き、「ツール」→「PDFを編集」に進み、右側のパネルで「透かし」、次に「削除」をクリックします。Acrobatは自身が追加したと認識するすべてのウォーターマークを見つけ出し、削除してくれます。この操作はクリーンで、元のコンテンツを保持し、ウォーターマークオブジェクトのみを削除します。念のため、私はいつも最初に新しい名前でファイルを保存するようにしています。ただし注意点として、これが確実に機能するのはAcrobat自身がウォーターマークを配置した場合のみです。同僚がサードパーティのプラグインや別のアプリを使ってマークを追加した場合、Acrobatの「透かしを削除」コマンドは何も言わずに失敗し、マークが残ったままになるか、一部のページからしか削除されない可能性があります。コマンド実行後は、必ず文書全体をスクロールして確認してください。より大きな作業、例えば40件の四半期報告書から「DRAFT」マークを削除するような場合には、Acrobatのアクションウィザードが最高の相棒です(「ツール」→「アクションウィザード」→「新規アクションを作成」)。フォルダ全体に対して「透かしを削除」ステップを実行する簡単なアクションを作成できます。標準的なノートPCなら、1分あたり約50ページの単一ページPDFを処理できます。もちろん、文書に他の誰かによってセキュリティ権限が設定されている場合、Acrobatは所有者のパスワードなしでは編集を拒否しますが、それには正当な理由があります。
CocoConvertを使ってウォーターマーク付きの下書きをクリーンアップする
最も一般的なシナリオの一つ、つまりテキストのウォーターマークが入った下書きPDFを納品用にクリーンアップする必要がある場合、CocoConvertのツールキットは非常に実用的です。最良のワークフローは、変換の往復です。ウォーターマーク付きのPDFをCocoConvertにアップロードし、編集可能な形式に変換します。テキスト中心の文書ならDOCX、スライドならPPTXをおすすめします。変換すると、通常ウォーターマークは新しい文書内の単純なテキストボックスや図形になります。Microsoft WordやGoogle Docsでそれを選択して削除するだけです。その後、CocoConvertの文書からPDFへのコンバーターを使って、クリーンになったファイルを元のきれいなPDFに戻します。この方法は、スキャンされたものではなく、デジタルで作成されたPDFで最も効果を発揮します。クリーンなデジタルPDFの場合、CocoConvertの変換エンジンはフォント、レイアウト、画像を非常によく保持します。スキャンされたPDFは話が別で、OCRプロセスによって表や複数段組のレイアウトが崩れることがあるため、出力を注意深く校正する必要があります。この方法には限界もあります。ウォーターマークがテキストではなく半透明の画像である場合、変換中に背景に溶け込んでしまい、Wordで削除するのが難しくなることがあります。その状況では、Adobe Acrobatの方法がより信頼できます。それでも、一般的な「デジタルPDF上のテキストウォーターマーク」のケースでは、CocoConvertは強力な選択肢であり、典型的な20ページの文書なら、この一連の作業は3分もかかりません。
フラット化されたPDFやスキャンされたPDFへの対処法
ウォーターマークがページ画像にラスタライズされているフラット化されたPDFは、最も手強い課題です。どんなツールでもこれらのマークを完璧に除去することはできません。ウォーターマークがテキストや詳細な画像の上にある場合、それを除去するということは、その下にあるコンテンツを再構築することを意味し、それは根本的に推測に過ぎません。画像からテキストを魔法のように「消去」しようとしたことがある人なら、このもどかしさがわかるでしょう。ウォーターマークによっては、実用的なアプローチも存在します。真っ白な背景に単色のテキストスタンプ(例えば赤い「CONFIDENTIAL」の文字)がある場合、GIMPやPhotoshopでページごとに対応できます。Photoshopでは、PDFを300dpiで開き、魔法の杖ツールでウォーターマークの色を選択し、選択範囲を2〜3ピクセル拡大してから、「編集」→「塗りつぶし」→「コンテンツに応じる」を使用します。隠されているのが白い背景だけなら、これは驚くほどうまくいき、1ページあたり約30秒で完了します。しかし、ウォーターマークが本文テキストを覆っている場合、「コンテンツに応じる」は背景のテクスチャを再構築するだけで、隠された文字を復元することはできません。なぜなら、それらの文字は画像から単純に消えてしまっているからです。スキャンされた法的文書のような重要な書類の場合、唯一本当に信頼できる方法は、元のソースドキュメントを入手することです。ストックフォトライブラリ、法務サービス、学術出版社などは、購入後にクリーンなコピーを提供する正式なプロセスを持っていることが多いです。彼らに連絡する方が、どんな自動除去の試みよりも常に速く、正確です。開発者向けには、PyMuPDF (fitz) のようなPythonライブラリでベクターウォーターマークの除去を自動化できますが、これにはコーディングスキルと慎重なテストが必要です。
機密性の高いPDFを処理する際のプライバシーに関する考慮事項
その性質上、ウォーターマーク付きのPDFは機密性が高いことが多いです。契約書の草案、社内の財務報告書、機密の人事文書などを考えてみてください。そうしたファイルをオンラインサービスにアップロードする前には、そのサービスがあなたのデータをどのように扱うかを確認しなければなりません。CocoConvertは、処理後1時間以内にアップロードされたファイルをサーバーから削除し、すべての転送はTLS 1.2暗号化で保護されています。所属組織のデータポリシーで機密扱いとされている文書については、まずIT部門や法務部門に確認すべきです。多くの企業では、どの文書カテゴリをネットワーク外に持ち出すことが許可されているかについて明確な規則を設けています。このようなリスクの高い状況では、オフラインツールが唯一の責任ある選択です。Adobe Acrobat Proは、完全にローカルで動作する素晴らしい選択肢です。LibreOffice Drawもネットワーク接続なしでPDFを開いて編集できます。「ファイル」→「開く」と進むと、PDFが編集可能な図面としてレンダリングされ、ウォーターマークオブジェクトを選択して削除できます。複雑なレイアウトの忠実度はAcrobatより低いですが、無料で完全にオフラインです。macOSでは、プレビューアプリのマークアップツールは限定的ですが、レイヤーが存在すれば削除できます(「表示」→「サムネール」、その後「レイヤー」ボタンを探す)。Windowsでは、PDF-XChange Editorの無料版が同様のレイヤー管理機能を提供しています。私の経験則はシンプルです。速度が優先される機密性の低い文書にはオンラインツールを使い、ライフサイクル全体を自分で管理したい機密ファイルはローカルソフトウェアに留めておく、ということです。
最適な方法を選ぶためのクイック判断ガイド
これらすべてを、約60秒で確認できる判断ガイドにまとめてみましょう。まず、どんなPDFビューアでもいいのでレイヤーを確認してください。これが最も手っ取り早い方法です。ウォーターマークのレイヤーが見つかれば、それをオフにして再保存するだけです。これで完了です。レイヤーがない場合、次の質問は「あなたやあなたの組織がAdobe Acrobatの組み込みツールを使ってウォーターマークを追加しましたか?」です。もしそうなら、Acrobatの「ツール」→「PDFを編集」→「透かし」→「削除」を使いましょう。スキャンではなく、きれいなデジタル文書で、単純なテキストのウォーターマークの場合はどうでしょう?その場合は、CocoConvertを使ってDOCXに変換し、またPDFに戻すという往復作業が速くて効果的で、信頼できる結果を生みます。最後に、最も難しいケース、つまりスキャンされた画像やフラット化されたPDFの場合です。この場合の対処法はコンテンツによります。ウォーターマークが重要なものを隠していなければ、PhotoshopやGIMPの「コンテンツに応じる」を使い、ページごとに作業します。もしテキストや画像を隠してしまっている場合は、文書の発行元に連絡してクリーンなコピーをもらいましょう。塗りつぶされたコンテンツを確実に再構築できるソフトウェアはありません。最後のステップ、ファイルの「衛生管理」も忘れずに。ウォーターマークを削除した後、ファイルのメタデータを確認しましょう。ExifTool(無料のコマンドラインユーティリティ)やAcrobatの「ファイル」→「プロパティ」→「概要」タブのようなツールで、「DRAFT」といった履歴を示す残存データを見つけることができます。このメタデータを削除するのは、小さいながらもプロフェッショナルなステップです。標準的なPDFメタデータをクリアするためのExifToolコマンドは `exiftool -all= yourfile.pdf` です。これは埋め込まれたメタデータにのみ影響し、表示されるコンテンツには影響しません。