幫助你排序文本文件的 Awk 命令行或腳本

Awk 是個普遍存在的 Unix 命令，用於掃描和處理包含可預測模式的文本。但是，由於它具有函數功能，因此也可以合理地稱之為編程語言。

令人困惑的是，有不止一個 awk。（或者，如果你認為只有一個，那麼其它幾個就是克隆。）有 awk（由Aho、Weinberger 和 Kernighan 編寫的原始程序），然後有 nawk 、mawk 和 GNU 版本的 gawk。GNU 版本的 awk 是該實用程序的一個高度可移植的自由軟體版本，具有幾個獨特的功能，因此本文是關於 GNU awk 的。

雖然它的正式名稱是 gawk，但在 GNU+Linux 系統上，它的別名是 awk，並用作該命令的默認版本。在其他沒有帶有 GNU awk 的系統上，你必須先安裝它並將其稱為 gawk，而不是 awk。本文互換使用術語 awk 和 gawk。

awk 既是命令語言又是編程語言，這使其成為一個強大的工具，可以處理原本留給 sort、cut、uniq 和其他常見實用程序的任務。幸運的是，開源中有很多冗餘空間，因此，如果你面臨是否使用 awk 的問題，答案可能是肯定的「隨便」。

awk 的靈活之美在於，如果你已經確定使用 awk 來完成一項任務，那麼無論接下來發生什麼，你都可以繼續使用 awk。這包括對數據排序而不是按交付給你的順序的永恆需求。

樣本數據集

在探索 awk 的排序方法之前，請生成要使用的樣本數據集。保持簡單，這樣你就不會為極端情況和意想不到的複雜性所困擾。這是本文使用的樣本集：

Aptenodytes;forsteri;Miller,JF;1778;Emperor
Pygoscelis;papua;Wagler;1832;Gentoo
Eudyptula;minor;Bonaparte;1867;Little Blue
Spheniscus;demersus;Brisson;1760;African
Megadyptes;antipodes;Milne-Edwards;1880;Yellow-eyed
Eudyptes;chrysocome;Viellot;1816;Sothern Rockhopper
Torvaldis;linux;Ewing,L;1996;Tux

這是一個很小的數據集，但它提供了多種數據類型：

屬名和種名，彼此相關但又是分開的
姓，有時是以逗號開頭的首字母縮寫
代表日期的整數
任意術語
所有欄位均以分號分隔

根據你的教育背景，你可能會認為這是二維數組或表格，或者只是行分隔的數據集合。你如何看待它只是你的問題，而 awk 只認識文本。由你決定告訴 awk 你想如何解析它。

只想排序

如果你只想按特定的可定義欄位（例如電子表格中的「單元格」）對文本數據集進行排序，則可以使用 sort 命令。

欄位和記錄

無論輸入的格式如何，都必須在其中找到模式才可以專註於對你重要的數據部分。在此示例中，數據由兩個因素定界：行和欄位。每行都代表一個新的記錄，就如你在電子表格或資料庫轉儲中看到的一樣。在每一行中，都有用分號（;）分隔的不同的欄位（將其視為電子表格中的單元格）。

awk 一次只處理一條記錄，因此，當你在構造發給 awk 的這指令時，你可以只關注一行記錄。寫下你想對一行數據執行的操作，然後在下一行進行測試（無論是心理上還是用 awk 進行測試），然後再進行其它的一些測試。最後，你要對你的 awk 腳本要處理的數據做好假設，以便可以按你要的數據結構提供給你數據。

在這個例子中，很容易看到每個欄位都用分號隔開。為簡單起見，假設你要按每行的第一欄位對列表進行排序。

在進行排序之前，你必須能夠讓 awk 只關注在每行的第一個欄位上，因此這是第一步。終端中 awk 命令的語法為 awk，後跟相關選項，最後是要處理的數據文件。

$ awk --field-separator=";" &apos;{print $1;}&apos; penguins.list
Aptenodytes
Pygoscelis
Eudyptula
Spheniscus
Megadyptes
Eudyptes
Torvaldis

因為欄位分隔符是對 Bash shell 具有特殊含義的字元，所以必須將分號括在引號中或在其前面加上反斜杠。此命令僅用於證明你可以專註於特定欄位。你可以使用另一個欄位的編號嘗試相同的命令，以查看數據的另一個「列」的內容：

$ awk --field-separator=";" &apos;{print $3;}&apos; penguins.list
Miller,JF
Wagler
Bonaparte
Brisson
Milne-Edwards
Viellot
Ewing,L

我們尚未進行任何排序，但這是良好的基礎。

腳本編程

awk 不僅僅是命令，它是一種具有索引、數組和函數的編程語言。這很重要，因為這意味著你可以獲取要排序的欄位列表，將列表存儲在內存中，進行處理，然後列印結果數據。對於諸如此類的一系列複雜操作，在文本文件中進行操作會更容易，因此請創建一個名為 sort.awk 的新文件並輸入以下文本：

#!/bin/gawk -f

BEGIN {
        FS=";";
}

這會將該文件建立為 awk 腳本，該腳本中包含執行的行。

BEGIN 語句是 awk 提供的特殊設置功能，用於只需要執行一次的任務。定義內置變數 FS，它代表欄位分隔符 field separator ，並且與你在 awk 命令中使用 --field-separator 設置的值相同，它只需執行一次，因此它包含在 BEGIN 語句中。

awk 中的數組

你已經知道如何通過使用 $ 符號和欄位編號來收集特定欄位的值，但是在這種情況下，你需要將其存儲在數組中而不是將其列印到終端。這是通過 awk 數組完成的。awk 數組的重要之處在於它包含鍵和值。想像一下有關本文的內容；它看起來像這樣：author:"seth",title:"How to sort with awk",length:1200。諸如作者、標題和長度之類的元素是鍵，跟著的內容為值。

在排序的上下文中這樣做的好處是，你可以將任何欄位分配為鍵，將任何記錄分配為值，然後使用內置的 awk 函數 asorti()（按索引排序）按鍵進行排序。現在，隨便假設你只想按第二個欄位排序。

沒有被特殊關鍵字 BEGIN 或 END 引起來的 awk 語句是在每個記錄都要執行的循環。這是腳本的一部分，該腳本掃描數據中的模式並進行相應的處理。每次 awk 將注意力轉移到一條記錄上時，都會執行 {} 中的語句（除非以 BEGIN 或 END 開頭）。

要將鍵和值添加到數組，請創建一個包含數組的變數（在本示例腳本中，我將其稱為 ARRAY，雖然不是很原汁原味，但很清楚），然後在方括弧中分配給它鍵，用等號（=）連接值。

{   # dump each field into an array
    ARRAY[$2] = $R;
}

在此語句中，第二個欄位的內容（$2）用作關鍵字，而當前記錄（$R）用作值。

asorti() 函數

除了數組之外，awk 還具有一些基本函數，你可以將它們用作常見任務的快速簡便的解決方案。GNU awk中引入的函數之一 asorti() 提供了按鍵（索引）或值對數組進行排序的功能。

你只能在對數組進行填充後對其進行排序，這意味著此操作不能對每個新記錄都觸發，而只能在腳本的最後階段進行。為此，awk 提供了特殊的 END 關鍵字。與 BEGIN 相反，END 語句僅在掃描了所有記錄之後才觸發一次。

將這些添加到你的腳本：

END {
    asorti(ARRAY,SARRAY);
    # get length
    j = length(SARRAY);

    for (i = 1; i <= j; i++) {
        printf("%s %sn", SARRAY[i],ARRAY[SARRAY[i]])
    }
}

asorti() 函數獲取 ARRAY 的內容，按索引對其進行排序，然後將結果放入名為 SARRAY 的新數組（我在本文中發明的任意名稱，表示「排序的 ARRAY」）。

接下來，將變數 j（另一個任意名稱）分配給 length() 函數的結果，該函數計算 SARRAY 中的項數。

最後，使用 for 循環使用 printf() 函數遍歷 SARRAY 中的每一項，以列印每個鍵，然後在 ARRAY 中列印該鍵的相應值。

運行該腳本

要運行你的 awk 腳本，先使其可執行：

$ chmod +x sorter.awk

然後針對 penguin.list 示例數據運行它：

$ ./sorter.awk penguins.list
antipodes Megadyptes;antipodes;Milne-Edwards;1880;Yellow-eyed
chrysocome Eudyptes;chrysocome;Viellot;1816;Sothern Rockhopper
demersus Spheniscus;demersus;Brisson;1760;African
forsteri Aptenodytes;forsteri;Miller,JF;1778;Emperor
linux Torvaldis;linux;Ewing,L;1996;Tux
minor Eudyptula;minor;Bonaparte;1867;Little Blue
papua Pygoscelis;papua;Wagler;1832;Gentoo

如你所見，數據按第二個欄位排序。

這有點限制。最好可以在運行時靈活選擇要用作排序鍵的欄位，以便可以在任何數據集上使用此腳本並獲得有意義的結果。

添加命令選項

你可以通過在腳本中使用字面值 var 將命令變數添加到 awk 腳本中。更改腳本，以使迭代子句在創建數組時使用 var：

{ # dump each field into an array
    ARRAY[$var] = $R;
}

嘗試運行該腳本，以便在執行腳本時使用 -v var 選項將其按第三欄位排序：

$ ./sorter.awk -v var=3 penguins.list
Bonaparte Eudyptula;minor;Bonaparte;1867;Little Blue
Brisson Spheniscus;demersus;Brisson;1760;African
Ewing,L Torvaldis;linux;Ewing,L;1996;Tux
Miller,JF Aptenodytes;forsteri;Miller,JF;1778;Emperor
Milne-Edwards Megadyptes;antipodes;Milne-Edwards;1880;Yellow-eyed
Viellot Eudyptes;chrysocome;Viellot;1816;Sothern Rockhopper
Wagler Pygoscelis;papua;Wagler;1832;Gentoo

修正

本文演示了如何在純 GNU awk 中對數據進行排序。你可以對腳本進行改進，以便對你有用，花一些時間在gawk 的手冊頁上研究 awk 函數並自定義腳本以獲得更好的輸出。

這是到目前為止的完整腳本：

#!/usr/bin/awk -f
# GPLv3 appears here
# usage: ./sorter.awk -v var=NUM FILE

BEGIN { FS=";"; }

{ # dump each field into an array
    ARRAY[$var] = $R;
}

END {
    asorti(ARRAY,SARRAY);
    # get length
    j = length(SARRAY);

    for (i = 1; i <= j; i++) {
        printf("%s %sn", SARRAY[i],ARRAY[SARRAY[i]])
    }
}

via: https://opensource.com/article/19/11/how-sort-awk

作者：Seth Kenlon 選題：lujun9972 譯者：wxy 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何？

太棒了

不錯

愛死了

不太好

感覺很糟

Rain

雨落清風。心向陽

幫助你排序文本文件的 Awk 命令行或腳本

樣本數據集

只想排序

欄位和記錄

腳本編程

awk 中的數組

asorti() 函數

運行該腳本

添加命令選項

修正

對這篇文章感覺如何？

中國 GPL 訴訟第一案：關於 GPL 問題的探討

專訪徐亮：解密 UCloud 的工程能力

Leave a reply 取消回復

More in:Linux中國

捐贈 Let's Encrypt，共建安全的互聯網

Let's Encrypt 正式發布，已經保護 380 萬個域名

關於Linux防火牆iptables的面試問答

Lets Encrypt 已被所有主流瀏覽器所信任

中文操作系統論壇

關注 LinuxStory

開源學村

編程類開放書籍薈萃

如何殺死 Linux 中的殭屍進程

2022年，從學習Rust開始

使用 Linux 命令行解決Wordle 問題

5本學習 TeX 的最佳免費書籍

Makefile 簡介

Linux 內核補丁提交初體驗

Linux 的前世今生 – 1

特別關注

更開放的分散式事務 | Fescar 品牌升級，更名為 Seata

HeRM’s – 一個命令食譜管理器

使用 Let's Encrypt 保護你的網站

LinuxStory

加入 LinuxStory 交流群組

投票調查

最熱標籤

樣本數據集

只想排序

欄位和記錄

腳本編程

awk 中的數組

asorti() 函數

運行該腳本

添加命令選項

修正

分享

對這篇文章感覺如何？

You may also like

Leave a reply 取消回復

More in:Linux中國

中文操作系統論壇

關注 LinuxStory

開源學村

特別關注

最新文章

最熱標籤