Linux中國

怎樣使用 awk 刪掉文件中重複的行

假設你有一個文本文件,你需要刪掉所有重複的行。

TL;DR

要保持原來的排列順序刪掉重複行,使用:

awk '!visited[$0]++' your_file > deduplicated_file

工作原理

這個腳本維護一個關聯數組,索引(鍵)為文件中去重後的行,每個索引對應的值為該行出現的次數。對於文件的每一行,如果這行(之前)出現的次數為 0,則值加 1,並列印這行,否則值加 1,不列印這行。

我之前不熟悉 awk,我想弄清楚這麼短小的一個腳本是怎麼實現的。我調研了下,下面是調研心得:

  • 這個 awk 「腳本」 !visited[$0]++ 對輸入文件的每一行都執行。
  • visited[] 是一個關聯數組(又名映射)類型的變數。awk 會在第一次執行時初始化它,因此我們不需要初始化。
  • $0 變數的值是當前正在被處理的行的內容。
  • visited[$0] 通過與 $0(正在被處理的行)相等的鍵來訪問該映射中的值,即出現次數(我們在下面設置的)。
  • ! 對表示出現次數的值取反:
    • awk 中,任意非零的數或任意非空的字元串的值是 true
    • 變數默認的初始值為空字元串,如果被轉換為數字,則為 0。
    • 也就是說:
      • 如果 visited[$0] 的值是一個比 0 大的數,取反後被解析成 false
      • 如果 visited[$0] 的值為等於 0 的數字或空字元串,取反後被解析成 true
    • ++ 表示變數 visited[$0] 的值加 1。
      • 如果該值為空,awk 自動把它轉換為 0(數字) 後加 1。
      • 注意:加 1 操作是在我們取到了變數的值之後執行的。

總的來說,整個表達式的意思是:

  • true:如果表示出現次數為 0 或空字元串
  • false:如果出現的次數大於 0

awk模式或表達式和一個與之關聯的動作 組成:

<模式/表達式> { <動作> }

如果匹配到了模式,就會執行後面的動作。如果省略動作,awk 默認會列印(print)輸入。

省略動作等價於 {print $0}

我們的腳本由一個 awk 表達式語句組成,省略了動作。因此這樣寫:

awk &apos;!visited[$0]++&apos; your_file > deduplicated_file

等於這樣寫:

awk &apos;!visited[$0]++ { print $0 }&apos; your_file > deduplicated_file

對於文件的每一行,如果表達式匹配到了,這行內容被列印到輸出。否則,不執行動作,不列印任何東西。

為什麼不用 uniq 命令?

uniq 命令僅能對相鄰的行去重。這是一個示例:

$ cat test.txt
A
A
A
B
B
B
A
A
C
C
C
B
B
A
$ uniq < test.txt
A
B
A
C
B
A

其他方法

使用 sort 命令

我們也可以用下面的 sort 命令來去除重複的行,但是原來的行順序沒有被保留

sort -u your_file > sorted_deduplicated_file

使用 cat + sort + cut

上面的方法會產出一個去重的文件,各行是基於內容進行排序的。通過管道連接命令可以解決這個問題。

cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-

工作原理

假設我們有下面一個文件:

abc
ghi
abc
def
xyz
def
ghi
klm

cat -n test.txt 在每行前面顯示序號:

1       abc
2       ghi
3       abc
4       def
5       xyz
6       def
7       ghi
8       klm

sort -uk2 基於第二列(k2 選項)進行排序,對於第二列相同的值只保留一次(u 選項):

1       abc
4       def
2       ghi
8       klm
5       xyz

sort -nk1 基於第一列排序(k1 選項),把列的值作為數字來處理(-n 選項):

1       abc
2       ghi
4       def
5       xyz
8       klm

最後,cut -f2- 從第二列開始列印每一行,直到最後的內容(-f2- 選項:留意 - 後綴,它表示這行後面的內容都包含在內)。

abc
ghi
def
xyz
klm

參考

以上為全文。

via: https://opensource.com/article/19/10/remove-duplicate-lines-files-awk

作者:Lazarus Lazaridis 選題:lujun9972 譯者:lxbwolf 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的郵箱地址不會被公開。 必填項已用 * 標註

    這個站點使用 Akismet 來減少垃圾評論。了解你的評論數據如何被處理

    More in:Linux中國

    Linux中國

    捐贈 Let&apos;s Encrypt,共建安全的互聯網

    隨著 Mozilla、蘋果和谷歌對沃通和 StartCom 這兩家 CA 公司處罰落定,很多使用這兩家 CA 所簽發證書的網站紛紛尋求新的證書籤發商。有一個非盈利組織可以為大家提供了免費、可靠和安全的 SSL 證書服務,這就是 Let's Encrypt 項目。現在,它需要您的幫助
    Linux中國

    關於Linux防火牆iptables的面試問答

    Nishita Agarwal是Tecmint的用戶,她將分享關於她剛剛經歷的一家公司(印度的一家私人公司Pune)的面試經驗。在面試中她被問及許多不同的問題,但她是iptables方面的專家,因此她想分享這些關於iptables的問題和相應的答案給那些以後可能會進行相關面試的人。 所有的問題和相應的答案都基於Nishita Agarwal的記憶並經過了重寫。 嗨,朋友!我叫Nishita Agarwal。我已經取得了理學學士學位,我的專業集中在UNIX和它的變種(BSD,Linux)。它們一直深深的吸引著我。我在存儲方面有1年多的經驗。我正在尋求職業上的變化,並將供職於印度的P
    Linux中國

    Lets Encrypt 已被所有主流瀏覽器所信任

    旨在讓每個網站都能使用 HTTPS 加密的非贏利組織 Lets Encrypt 已經得了 IdenTrust的交叉簽名,這意味著其證書現在已經可以被所有主流的瀏覽器所信任。從這個裡程碑事件開始,訪問者訪問使用了Lets Encrypt 證書的網站不再需要特別配置就可以得到 HTTPS 安全保護了。 Lets Encrypt 的兩個中級證書 ...