怎樣使用 awk 刪掉文件中重複的行

假設你有一個文本文件，你需要刪掉所有重複的行。

TL;DR

要保持原來的排列順序刪掉重複行，使用：

awk &apos;!visited[$0]++&apos; your_file > deduplicated_file

工作原理

這個腳本維護一個關聯數組，索引（鍵）為文件中去重後的行，每個索引對應的值為該行出現的次數。對於文件的每一行，如果這行（之前）出現的次數為 0，則值加 1，並列印這行，否則值加 1，不列印這行。

我之前不熟悉 awk，我想弄清楚這麼短小的一個腳本是怎麼實現的。我調研了下，下面是調研心得：

這個 awk 「腳本」 !visited[$0]++ 對輸入文件的每一行都執行。
visited[] 是一個關聯數組（又名映射）類型的變數。awk 會在第一次執行時初始化它，因此我們不需要初始化。
$0 變數的值是當前正在被處理的行的內容。
visited[$0] 通過與 $0（正在被處理的行）相等的鍵來訪問該映射中的值，即出現次數（我們在下面設置的）。
! 對表示出現次數的值取反：
- 在 awk 中，任意非零的數或任意非空的字元串的值是 true。
- 變數默認的初始值為空字元串，如果被轉換為數字，則為 0。
- 也就是說：
  - 如果 visited[$0] 的值是一個比 0 大的數，取反後被解析成 false。
  - 如果 visited[$0] 的值為等於 0 的數字或空字元串，取反後被解析成 true 。
- ++ 表示變數 visited[$0] 的值加 1。
  - 如果該值為空，awk 自動把它轉換為 0（數字）後加 1。
  - 注意：加 1 操作是在我們取到了變數的值之後執行的。

總的來說，整個表達式的意思是：

true：如果表示出現次數為 0 或空字元串
false：如果出現的次數大於 0

awk 由模式或表達式和一個與之關聯的動作組成：

<模式/表達式> { <動作> }

如果匹配到了模式，就會執行後面的動作。如果省略動作，awk 默認會列印（print）輸入。

省略動作等價於 {print $0}。

我們的腳本由一個 awk 表達式語句組成，省略了動作。因此這樣寫：

awk &apos;!visited[$0]++&apos; your_file > deduplicated_file

等於這樣寫：

awk &apos;!visited[$0]++ { print $0 }&apos; your_file > deduplicated_file

對於文件的每一行，如果表達式匹配到了，這行內容被列印到輸出。否則，不執行動作，不列印任何東西。

為什麼不用 uniq 命令？

uniq 命令僅能對相鄰的行去重。這是一個示例：

$ cat test.txt
A
A
A
B
B
B
A
A
C
C
C
B
B
A
$ uniq < test.txt
A
B
A
C
B
A

其他方法

使用 sort 命令

我們也可以用下面的 sort 命令來去除重複的行，但是原來的行順序沒有被保留。

sort -u your_file > sorted_deduplicated_file

使用 cat + sort + cut

上面的方法會產出一個去重的文件，各行是基於內容進行排序的。通過管道連接命令可以解決這個問題。

cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-

工作原理

假設我們有下面一個文件：

abc
ghi
abc
def
xyz
def
ghi
klm

cat -n test.txt 在每行前面顯示序號：

1       abc
2       ghi
3       abc
4       def
5       xyz
6       def
7       ghi
8       klm

sort -uk2 基於第二列（k2 選項）進行排序，對於第二列相同的值只保留一次（u 選項）：

1       abc
4       def
2       ghi
8       klm
5       xyz

sort -nk1 基於第一列排序（k1 選項），把列的值作為數字來處理（-n 選項）：

1       abc
2       ghi
4       def
5       xyz
8       klm

最後，cut -f2- 從第二列開始列印每一行，直到最後的內容（-f2- 選項：留意 - 後綴，它表示這行後面的內容都包含在內）。

abc
ghi
def
xyz
klm

參考

以上為全文。

via: https://opensource.com/article/19/10/remove-duplicate-lines-files-awk

作者：Lazarus Lazaridis 選題：lujun9972 譯者：lxbwolf 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何？

太棒了

不錯

愛死了

不太好

感覺很糟

Rain

雨落清風。心向陽

怎樣使用 awk 刪掉文件中重複的行

TL;DR

工作原理

為什麼不用 uniq 命令？

其他方法

使用 sort 命令

使用 cat + sort + cut

參考

對這篇文章感覺如何？

Dell XPS 13 7390：最好的 Linux 桌面筆記本

在軟體部署中使用 strace 進行調試

Leave a reply 取消回復

More in:Linux中國

捐贈 Let's Encrypt，共建安全的互聯網

Let's Encrypt 正式發布，已經保護 380 萬個域名

關於Linux防火牆iptables的面試問答

Lets Encrypt 已被所有主流瀏覽器所信任

中文操作系統論壇

關注 LinuxStory

開源學村

編程類開放書籍薈萃

如何殺死 Linux 中的殭屍進程

2022年，從學習Rust開始

使用 Linux 命令行解決Wordle 問題

5本學習 TeX 的最佳免費書籍

Makefile 簡介

Linux 內核補丁提交初體驗

Linux 的前世今生 – 1

特別關注

更開放的分散式事務 | Fescar 品牌升級，更名為 Seata

HeRM’s – 一個命令食譜管理器

使用 Let's Encrypt 保護你的網站

LinuxStory

加入 LinuxStory 交流群組

投票調查

最熱標籤

TL;DR

工作原理

為什麼不用 uniq 命令？

其他方法

使用 sort 命令

使用 cat + sort + cut

參考

分享

對這篇文章感覺如何？

You may also like

Leave a reply 取消回復

More in:Linux中國

中文操作系統論壇

關注 LinuxStory

開源學村

特別關注

最新文章

最熱標籤