Linux中國

使用 pdftk 為 PDF 文檔創建書籤

充分利用現有的技術,提供書籤以幫助用戶。

介紹 pdftk-java 中, 我展示了如何在腳本中使用 pdftk-java 來快速修改 PDF 文件。

但是,pdftk-java 最有用的場景是處理那種動輒幾百頁的沒有目錄的大 PDF 文件。這裡所謂的目錄不是指文檔前面供列印的目錄,而是指顯示在 PDF 閱讀器側邊欄里的目錄,它在 PDF 格式中的正式叫法是「 書籤 bookmarks 」。

![Screenshot of a sidebar table of contents next to a PDF](/data/attachment/album/202307/06/185111hcfai44dhqmtojdk.jpg "table of contents")

如果沒有書籤,就只能通過上下滾動或全局搜索文本來定位想要的章節,這非常麻煩。

PDF 文件的另一個惱人的小問題是缺乏元數據,比如標題和作者。如果你打開過一個標題欄上顯示類似 「Microsoft Word - 04_Classics_Revisited.docx」 的 PDF 文件,你就能體會那種感覺了。

pdftk-java 讓我能夠創建自己的書籤,我再也不面對這些問題了。

在 Linux 上安裝 pdftk-java

正如 pdftk-java 的名稱所示的,它是用 Java 編寫的。它能夠在所有主流操作系統上運行,只要你安裝了 Java。

Linux 和 macOS 用戶可以從 AdoptOpenJDK.net 安裝 Java(LCTT 譯註:原文為 Linux,應為筆誤)。

Windows 用戶可以安裝 Red Hat's Windows build of OpenJDK

在 Linux 上安裝 pdftk-java:

  1. 從 Gitlab 倉庫下載 pdftk-all.jar release,保存至 ~/.local/bin/其它路徑 下.
  2. 用文本編輯器打開 ~/.bashrc,添加 alias pdftk='java -jar $HOME/.local/bin/pdftk-all.jar'
  3. 運行 source ~/.bashrc 使新的 Bash 設置生效。

數據轉儲

修改元數據的第一步是抽取 PDF 當前的數據文件。

現在的數據文件可能並沒包含多少內容,但這也是一個不錯的開端。

$ pdftk mybigfile.pdf 
  data_dump 
  output bookmarks.txt

生成的 bookmarks.txt 文件中包含了輸入 PDF 文件 mybigfile.pdf 的所有元數據和一大堆無用數據。

編輯元數據

用文本編輯器(比如 AtomGedit)打開 bookmarks.txt 以編輯 PDF 元數據。

元數據的格式和數據項直觀易懂:

InfoBegin
InfoKey: Creator
InfoValue: Word
InfoBegin
InfoKey: ModDate
InfoValue: D:20151221203353Z00'00'
InfoBegin
InfoKey: CreationDate
InfoValue: D:20151221203353Z00'00'
InfoBegin
InfoKey: Producer
InfoValue: Mac OS X 10.10.4 Quartz PDFContext
InfoBegin
InfoKey: Title
InfoValue: Microsoft Word - 04_UA_Classics_Revisited.docx
PdfID0: f049e63eaf3b4061ddad16b455ca780f
PdfID1: f049e63eaf3b4061ddad16b455ca780f
NumberOfPages: 42
PageMediaBegin
PageMediaNumber: 1
PageMediaRotation: 0
PageMediaRect: 0 0 612 792
PageMediaDimensions: 612 792
[...]

你可以將 InfoValue 的值修改為對當前 PDF 有意義的內容。比如可以將 Creator 欄位從 Word 修改為實際的作者或出版社名稱。比起使用導出程序自動生成的標題,使用書籍的實際標題會更好。

你也可以做一些清理工作。在 NumberOfPages 之後的行都不是必需的,可以刪除這些行的內容。

添加書籤

PDF 書籤的格式如下:

BookmarkBegin
BookmarkTitle: My first bookmark
BookmarkLevel: 1
BookmarkPageNumber: 2
  • BookmarkBegin 表示這是一個書籤。
  • BookmarkTitle 書籤在 PDF 閱讀器中顯示的文本。
  • BookmarkLevel 書籤層級。如果書籤層級為 2,它將出現在上一個書籤的小三角下。如果設置為 3,它會顯示在上一個 2 級書籤的小三角下。這讓你能為章以及其中的節設置書籤。
  • BookmarkPageNumber 點擊書籤時轉到的頁碼。

為你需要的章節創建書籤,然後保存文件。

更新書籤信息

現在已經準備好了元數據和書籤,你可以將它們導入到 PDF 文件中。實際上是將這些信息導入到一個新的 PDF 文件中,它的內容與原 PDF 文件相同:

$ pdftk mybigfile.pdf 
  update_info bookmarks.txt 
  output mynewfile.pdf

生成的 mynewfile.pdf 包含了你設置的全部元數據和書籤。

體現專業性

PDF 文件中是否包含定製化的元數據和書籤可能並不會影響銷售。

但是,關注元數據可以向用戶表明你重視質量保證。增加書籤可以為用戶提供便利,同時亦是充分利用現有技術

使用 pdftk-java 來簡化這個過程,用戶會感激不盡。

(題圖:MJ/f8869a66-562d-4ee4-9f2d-1949944d6a9c)

via: https://opensource.com/article/22/1/pdf-metadata-pdftk

作者:Seth Kenlon 選題:lujun9972 譯者:toknow-gh 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的電子郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國