如何在 Linux 使用文件壓縮

Linux 系統為文件壓縮提供了許多選擇，關鍵是選擇一個最適合你的。

如果你對可用於 Linux 系統的文件壓縮命令或選項有任何疑問，你也許應該看一下 apropos compress 這個命令的輸出。如果你有機會這麼做，你會驚異於有如此多的的命令來進行壓縮文件和解壓縮文件；此外還有許多命令來進行壓縮文件的比較、檢驗，並且能夠在壓縮文件中的內容中進行搜索，甚至能夠把壓縮文件從一個格式變成另外一種格式（如，將 .z 格式變為 .gz 格式）。

你可以看到只是適用於 bzip2 壓縮的全部條目就有這麼多。加上 zip、gzip 和 xz 在內，你會有非常多的選擇。

$ apropos compress | grep ^bz
    bzcat (1)            - decompresses files to stdout
    bzcmp (1)            - compare bzip2 compressed files
    bzdiff (1)           - compare bzip2 compressed files
    bzegrep (1)          - search possibly bzip2 compressed files for a regular expression
    bzexe (1)            - compress executable files in place
    bzfgrep (1)          - search possibly bzip2 compressed files for a regular expression
    bzgrep (1)           - search possibly bzip2 compressed files for a regular expression
    bzip2 (1)            - a block-sorting file compressor, v1.0.6
    bzless (1)           - file perusal filter for crt viewing of bzip2 compressed text
    bzmore (1)           - file perusal filter for crt viewing of bzip2 compressed text

在我的 Ubuntu 系統上，apropos compress 命令的返回中列出了 60 條以上的命令。

壓縮演算法

壓縮並沒有普適的方案，某些壓縮工具是有損壓縮，例如一些壓縮用於減少 mp3 文件大小，而能夠使聆聽者有接近原聲的音樂感受。但是在 Linux 命令行上壓縮或歸檔用戶文件所使用的演算法必須能夠精確地重新恢復為原始數據。換句話說，它們必須是無損的。

這是如何做到的？讓我們假設在一行上有 300 個相同的字元可以被壓縮成像「300x」這樣的字元串，但是這種演算法對大多數文件沒有很大的用處，因為文件中不可能包含長的相同字元序列比完全隨機的序列更多。壓縮演算法要複雜得多，從 Unix 早期壓縮首次被引入以來，它就越來越複雜了。

在 Linux 系統上的壓縮命令

在 Linux 系統上最常用的文件壓縮命令包括 zip、gzip、bzip2、xz。所有這些壓縮命令都以類似的方式工作，但是你需要權衡有多少文件要壓縮（節省多少空間）、壓縮花費的時間、壓縮文件在其他你需要使用的系統上的兼容性。

有時壓縮一個文件並不會花費很多時間和精力。在下面的例子中，被壓縮的文件實際上比原始文件要大。這並不是一個常見情況，但是有可能發生——尤其是在文件內容達到一定程度的隨機性。

$ time zip bigfile.zip bigfile
    adding: bigfile (default 0% )
real    0m0.055s
user    0m0.000s
sys     0m0.016s 
$ ls -l bigfile*
-rw-r--r-- 1 root root   0 12月 20 22:36 bigfile
-rw------- 1 root root 164 12月 20 22:41 bigfile.zip

注意該文件壓縮後的版本（bigfile.zip）比原始文件（bigfile）要大。如果壓縮增加了文件的大小或者減少很少的比例，也許唯一的好處就是便於在線備份。如果你在壓縮文件後看到了下面的信息，你不會從壓縮中得到什麼受益。

 ( defalted 1% )

文件內容在文件壓縮的過程中有很重要的作用。在上面文件大小增加的例子中是因為文件內容過於隨機。壓縮一個文件內容只包含 0 的文件，你會有一個相當震驚的壓縮比。在如此極端的情況下，三個常用的壓縮工具都有非常棒的效果。

-rw-rw-r-- 1 shs shs 10485760 Dec 8 12:31 zeroes.txt
-rw-rw-r-- 1 shs shs 49 Dec 8 17:28 zeroes.txt.bz2
-rw-rw-r-- 1 shs shs 10219 Dec 8 17:28 zeroes.txt.gz
-rw-rw-r-- 1 shs shs 1660 Dec 8 12:31 zeroes.txt.xz
-rw-rw-r-- 1 shs shs 10360 Dec 8 12:24 zeroes.zip

令人印象深刻的是，你不太可能看到超過 1000 萬位元組而壓縮到少於 50 位元組的文件, 因為基本上不可能有這樣的文件。

在更真實的情況下，大小差異總體上是不同的，但是差別並不顯著，比如對於確實不太大的 jpg 圖片文件來說。

-rw-r--r-- 1 shs shs 13522 Dec 11 18:58 image.jpg
-rw-r--r-- 1 shs shs 13875 Dec 11 18:58 image.jpg.bz2
-rw-r--r-- 1 shs shs 13441 Dec 11 18:58 image.jpg.gz
-rw-r--r-- 1 shs shs 13508 Dec 11 18:58 image.jpg.xz
-rw-r--r-- 1 shs shs 13581 Dec 11 18:58 image.jpg.zip

在對大的文本文件同樣進行壓縮時，你會看到顯著的不同。

$ ls -l textfile*
    -rw-rw-r-- 1 shs shs 8740836 Dec 11 18:41 textfile
    -rw-rw-r-- 1 shs shs 1519807 Dec 11 18:41 textfile.bz2
    -rw-rw-r-- 1 shs shs 1977669 Dec 11 18:41 textfile.gz
    -rw-rw-r-- 1 shs shs 1024700 Dec 11 18:41 textfile.xz
    -rw-rw-r-- 1 shs shs 1977808 Dec 11 18:41 textfile.zip

在這種情況下，xz 相較於其他壓縮命令有效的減小了文件大小，對於第二的 bzip2 命令也是如此。

查看壓縮文件

這些以 more 結尾的命令（bzmore 等等）能夠讓你查看壓縮文件的內容而不需要解壓文件。

bzmore (1) - file perusal filter for crt viewing of bzip2 compressed text
lzmore (1) - view xz or lzma compressed (text) files
xzmore (1) - view xz or lzma compressed (text) files
zmore (1) - file perusal filter for crt viewing of compressed text

為了解壓縮文件內容顯示給你，這些命令做了大量的計算。但在另一方面，它們不會把解壓縮後的文件留在你系統上，它們只是即時解壓需要的部分。

$ xzmore textfile.xz | head -1
    Here is the agenda for tomorrow&apos;s staff meeting:

比較壓縮文件

有幾個壓縮工具箱包含一個差異命令（例如：xzdiff），那些工具會把這些工作交給 cmp 和 diff 來進行比較，而不是做特定演算法的比較。例如，xzdiff 命令比較 bz2 類型的文件和比較 xz 類型的文件一樣簡單。

如何選擇最好的 Linux 壓縮工具

如何選擇壓縮工具取決於你工作。在一些情況下，選擇取決於你所壓縮的數據內容。在更多的情況下，取決你組織內的慣例，除非你對磁碟空間有著很高的敏感度。下面是一般性建議：

zip 對於需要分享給或者在 Windows 系統下使用的文件最適合。

gzip 或許對你要在 Unix/Linux 系統下使用的文件是最好的。雖然 bzip2 已經接近普及，但 gzip 看起來仍將長期存在。

bzip2 使用了和 gzip 不同的演算法，並且會產生比 gzip 更小的文件，但是它們需要花費更長的時間進行壓縮。

xz 通常可以提供最好的壓縮率，但是也會花費相當長的時間。它比其他工具更新一些，可能在你工作的系統上還不存在。

注意

在壓縮文件時，你有很多選擇，而在極少的情況下，並不能有效節省磁碟存儲空間。

via: https://www.networkworld.com/article/3240938/linux/how-to-squeeze-the-most-out-of-linux-file-compression.html

作者：Sandra Henry-Stocker 譯者：singledo 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何？

太棒了

不錯

愛死了

不太好

感覺很糟

Rain

雨落清風。心向陽

如何在 Linux 使用文件壓縮

壓縮演算法

在 Linux 系統上的壓縮命令

查看壓縮文件

比較壓縮文件

如何選擇最好的 Linux 壓縮工具

注意

對這篇文章感覺如何？

書評：《Ours to Hack and to Own》

Gitlab CI 常規介紹

Leave a reply 取消回復

More in:Linux中國

捐贈 Let's Encrypt，共建安全的互聯網

Let's Encrypt 正式發布，已經保護 380 萬個域名

關於Linux防火牆iptables的面試問答

Lets Encrypt 已被所有主流瀏覽器所信任

中文操作系統論壇

關注 LinuxStory

開源學村

編程類開放書籍薈萃

如何殺死 Linux 中的殭屍進程

2022年，從學習Rust開始

使用 Linux 命令行解決Wordle 問題

5本學習 TeX 的最佳免費書籍

Makefile 簡介

Linux 內核補丁提交初體驗

Linux 的前世今生 – 1

特別關注

更開放的分散式事務 | Fescar 品牌升級，更名為 Seata

HeRM’s – 一個命令食譜管理器

使用 Let's Encrypt 保護你的網站

LinuxStory

加入 LinuxStory 交流群組

投票調查

最熱標籤

壓縮演算法

在 Linux 系統上的壓縮命令

查看壓縮文件

比較壓縮文件

如何選擇最好的 Linux 壓縮工具

注意

分享

對這篇文章感覺如何？

You may also like

Leave a reply 取消回復

More in:Linux中國

中文操作系統論壇

關注 LinuxStory

開源學村

特別關注

最新文章

最熱標籤