Linux中國

合併和排序 Linux 上的文件

在 Linux 上合併和排序文本的方法有很多種,但如何去處理它取決於你試圖做什麼:你是只想將多個文件的內容放入一個文件中,還是以某種方式組織它,讓它更易於使用。在本文中,我們將查看一些用於排序和合併文件內容的命令,並重點介紹結果有何不同。

使用 cat

如果你只想將一組文件放到單個文件中,那麼 cat 命令是一個容易的選擇。你所要做的就是輸入 cat,然後按你希望它們在合併文件中的順序在命令行中列出這些文件。將命令的輸出重定向到要創建的文件。如果指定名稱的文件已經存在,那麼文件將被覆蓋。例如:

$ cat firstfile secondfile thirdfile > newfile

如果要將一系列文件的內容添加到現有文件中,而不是覆蓋它,只需將 > 變成 >>

$ cat firstfile secondfile thirdfile >> updated_file

如果你要合併的文件遵循一些方便的命名約定,那麼任務可能更簡單。如果可以使用正則表達式指定所有文件名,那就不必列出所有文件。例如,如果文件全部以 file 結束,如上所示,你可以進行如下操作:

$ cat *file > allfiles

請注意,上面的命令將按字母數字順序添加文件內容。在 Linux 上,一個名為 filea 的文件將排在名為 fileA 的文件的前面,但會在 file7 的後面。畢竟,當我們處理字母數字序列時,我們不僅需要考慮 ABCDE,還需要考慮 0123456789aAbBcCdDeE。你可以使用 ls *file 這樣的命令來查看合併文件之前文件的順序。

注意:首先確保你的命令包含合併文件中所需的所有文件,而不是其他文件,尤其是你使用 * 等通配符時。不要忘記,用於合併的文件仍將單獨存在,在確認合併後,你可能想要刪除這些文件。

按時間期限合併文件

如果要基於每個文件的時間期限而不是文件名來合併文件,請使用以下命令:

$ for file in `ls -tr myfile.*`; do  cat $file >> BigFile.$$; done

使用 -tr 選項(t = 時間,r = 反向)將產生按照最早的在最前排列的文件列表。例如,如果你要保留某些活動的日誌,並且希望按活動執行的順序添加內容,則這非常有用。

上面命令中的 $$ 表示運行命令時的進程 ID。不是很必要使用此功能,但它幾乎不可能會無意添加到現有的文件,而不是創建新文件。如果使用 $$,那麼生成的文件可能如下所示:

$ ls -l BigFile.*
-rw-rw-r-- 1 justme justme   931725 Aug  6 12:36 BigFile.582914

合併和排序文件

Linux 提供了一些有趣的方式來對合併之前或之後的文件內容進行排序。

按字母對內容進行排序

如果要對合併的文件內容進行排序,那麼可以使用以下命令對整體內容進行排序:

$ cat myfile.1 myfile.2 myfile.3 | sort > newfile

如果要按文件對內容進行分組,請使用以下命令對每個文件進行排序,然後再將它添加到新文件中:

$ for file in `ls myfile.?`; do sort $file >> newfile; done

對文件進行數字排序

要對文件內容進行數字排序,請在 sort 中使用 -n 選項。僅當文件中的行以數字開頭時,此選項才有用。請記住,按照默認順序,02 將小於 1。當你要確保行以數字排序時,請使用 -n 選項。

$ cat myfile.1 myfile.2 myfile.3 | sort -n > xyz

如果文件中的行以 2020-11-032020/11/03(年月日格式)這樣的日期格式開頭,-n 選項還能讓你按日期對內容進行排序。其他格式的日期排序將非常棘手,並且將需要更複雜的命令。

使用 paste

paste 命令允許你逐行連接文件內容。使用此命令時,合併文件的第一行將包含要合併的每個文件的第一行。以下是示例,其中我使用了大寫字母以便於查看行的來源:

$ cat file.a
A one
A two
A three

$ paste file.a file.b file.c
A one   B one   C one
A two   B two   C two
A three B three C thee
        B four  C four
                C five

將輸出重定向到另一個文件來保存它:

$ paste file.a file.b file.c > merged_content

或者,你可以將每個文件的內容在同一行中合併,然後將文件粘貼在一起。這需要使用 -s(序列)選項。注意這次的輸出如何顯示每個文件的內容:

$ paste -s file.a file.b file.c
A one   A two   A three
B one   B two   B three B four
C one   C two   C thee  C four  C five

使用 join

合併文件的另一個命令是 joinjoin 命令讓你能基於一個共同欄位合併多個文件的內容。例如,你可能有一個包含一組同事的電話的文件,其中,而另一個包含了同事的電子郵件地址,並且兩者均按個人姓名列出。你可以使用 join 創建一個包含電話和電子郵件地址的文件。

一個重要的限制是文件的行必須是相同的順序,並在每個文件中包括用於連接的欄位。

這是一個示例命令:

$ join phone_numbers email_addresses
Sandra 555-456-1234 bugfarm@gmail.com
Pedro 555-540-5405
John 555-333-1234 john_doe@gmail.com
Nemo 555-123-4567 cutie@fish.com

在本例中,即使缺少附加信息,第一個欄位(名字)也必須存在於每個文件中,否則命令會因錯誤而失敗。對內容進行排序有幫助,而且可能更容易管理,但只要順序一致,就不需要這麼做。

總結

在 Linux 上,你有很多可以合併和排序存儲在單獨文件中的數據的方式。這些方法可以使原本繁瑣的任務變得異常簡單。

via: https://www.networkworld.com/article/3570508/merging-and-sorting-files-on-linux.html

作者:Sandra Henry-Stocker 選題:lujun9972 譯者:geekpi 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國