在 Linux 中分割和重組文件
非常有用的
csplit
命令可以將單個文件分割成多個文件。Carla Schroder 解釋說。
Linux 有幾個用於分割文件的工具程序。那麼你為什麼要分割文件呢?一個用例是將大文件分割成更小的尺寸,以便它適用於比較小的存儲介質,比如 U 盤。當您遇到 FAT32(最大文件大小為 4GB),且您的文件大於此時,通過 U 盤傳輸文件也是一個很好的技巧。另一個用例是加速網路文件傳輸,因為小文件的並行傳輸通常更快。
我們將學習如何使用 csplit
,split
和 cat
來重新整理文件,然後再將文件合併在一起。這些操作在任何文件類型下都有用:文本、圖片、音頻文件、ISO 鏡像文件等。
使用 csplit 分割文件
csplit
是這些有趣的小命令中的一個,它永遠伴你左右,一旦開始用它就離不開了。csplit
將單個文件分割成多個文件。這個示例演示了最簡單的使用方法,它將文件 foo.txt 分為三個文件,以行號 17 和 33 作為分割點:
$ csplit foo.txt 17 33
2591
3889
2359
csplit
在當前目錄下創建了三個新文件,並以位元組為單位列印出新文件的大小。默認情況下,每個新文件名為 xx_nn
:
$ ls
xx00
xx01
xx02
您可以使用 head
命令查看每個新文件的前十行:
$ head xx*
==> xx00 <==
Foo File
by Carla Schroder
Foo text
Foo subheading
More foo text
==> xx01 <==
Foo text
Foo subheading
More foo text
==> xx02 <==
Foo text
Foo subheading
More foo text
如果要將文件分割成包含相同行數的多個文件怎麼辦?可以指定行數,然後將重複次數放在在花括弧中。此示例重複分割 4 次,並將剩下的轉儲到最後一個文件中:
$ csplit foo.txt 5 {4}
57
1488
249
1866
3798
您可以使用星號通配符來告訴 csplit
儘可能多地重複分割。這聽起來很酷,但是如果文件不能等分,則可能會失敗(LCTT 譯註:低版本的 csplit
不支持此參數):
$ csplit foo.txt 10 {*}
1545
2115
1848
1901
csplit: '10': line number out of range on repetition 4
1430
默認的行為是刪除發生錯誤時的輸出文件。你可以用 -k
選項來解決這個問題,當有錯誤時,它就不會刪除輸出文件。另一個行為是每次運行 csplit
時,它將覆蓋之前創建的文件,所以你需要使用新的文件名來分別保存它們。使用 --prefix= _prefix_
來設置一個不同的文件前綴:
$ csplit -k --prefix=mine foo.txt 5 {*}
57
1488
249
1866
993
csplit: '5': line number out of range on repetition 9
437
$ ls
mine00
mine01
mine02
mine03
mine04
mine05
選項 -n
可用於改變對文件進行編號的數字位數(默認是 2 位):
$ csplit -n 3 --prefix=mine foo.txt 5 {4}
57
1488
249
1866
1381
3798
$ ls
mine000
mine001
mine002
mine003
mine004
mine005
csplit
中的 「c」 是上下文(context)的意思。這意味著你可以根據任意匹配的方式或者巧妙的正則表達式來分割文件。下面的例子將文件分為兩部分。第一個文件在包含第一次出現 「fie」 的前一行處結束,第二個文件則以包含 「fie」 的行開頭。
$ csplit foo.txt /fie/
在每次出現 「fie」 時分割文件:
$ csplit foo.txt /fie/ {*}
在 「fie」 前五次出現的地方分割文件:
$ csplit foo.txt /fie/ {5}
僅當內容以包含 「fie」 的行開始時才複製,並且省略前面的所有內容:
$ csplit myfile %fie%
將文件分割成不同大小
split
與 csplit
類似。它將文件分割成特定的大小,當您將大文件分割成小的多媒體文件或者使用網路傳送時,這就非常棒了。默認的大小為 1000 行:
$ split foo.mv
$ ls -hl
266K Aug 21 16:58 xaa
267K Aug 21 16:58 xab
315K Aug 21 16:58 xac
[...]
它們分割出來的大小相似,但你可以指定任何你想要的大小。這個例子中是 20M 位元組:
$ split -b 20M foo.mv
尺寸單位縮寫為 K,M,G,T,P,E,Z,Y(1024 的冪)或者 KB,MB,GB 等等(1000 的冪)。
為文件名選擇你自己的前綴和後綴:
$ split -a 3 --numeric-suffixes=9 --additional-suffix=mine foo.mv SB
240K Aug 21 17:44 SB009mine
214K Aug 21 17:44 SB010mine
220K Aug 21 17:44 SB011mine
-a
選項控制編號的數字位置。--numeric-suffixes
設置編號的開始值。默認前綴為 x
,你也可以通過在文件名後輸入它來設置一個不同的前綴。
將分割後的文件合併
你可能想在某個時候重組你的文件。常用的 cat
命令就用在這裡:
$ cat SB0* > foo2.txt
示例中的星號通配符將匹配到所有以 SB0 開頭的文件,這可能不會得到您想要的結果。您可以使用問號通配符進行更精確的匹配,每個字元使用一個問號:
$ cat SB0?????? > foo2.txt
和往常一樣,請查閱相關的手冊和信息頁面以獲取完整的命令選項。
via: https://www.linux.com/learn/intro-to-linux/2017/8/splitting-and-re-assembling-files-linux
作者:CARLA SCHRODER 譯者:firmianay 校對:wxy
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive