Linux中國

awk 入門 —— 強大的文本分析工具

awk 是用於 Unix 和類 Unix 系統的強大文本解析工具,但是由於它有可編程函數,因此你可以用它來執行常規解析任務,因此它也被視為一種編程語言。你可能不會使用 awk 開發下一個 GUI 應用,並且它可能不會代替你的默認腳本語言,但是它是用於特定任務的強大程序。

這些任務或許是驚人的多樣化。了解 awk 可以解決你的哪些問題的最好方法是學習 awk。你會驚訝於 awk 如何幫助你完成更多工作,卻花費更少的精力。

awk 的基本語法是:

awk [options] 'pattern {action}' file

首先,創建此示例文件並將其保存為 colours.txt

name       color  amount
apple      red    4
banana     yellow 6
strawberry red    3
grape      purple 10
apple      green  8
plum       purple 2
kiwi       brown  4
potato     brown  9
pineapple  yellow 5

數據被一個或多個空格分隔為列。以某種方式組織要分析的數據是很常見的。它不一定總是由空格分隔的列,甚至可以不是逗號或分號,但尤其是在日誌文件或數據轉儲中,通常有一個可預測的格式。你可以使用數據格式來幫助 awk 提取和處理你關注的數據。

列印列

awk 中,print 函數顯示你指定的內容。你可以使用許多預定義的變數,但是最常見的是文本文件中以整數命名的列。試試看:

$ awk '{print $2;}' colours.txt
color
red
yellow
red
purple
green
purple
brown
brown
yellow

在這裡,awk 顯示第二列,用 $2 表示。這是相對直觀的,因此你可能會猜測 print $1 顯示第一列,而 print $3 顯示第三列,依此類推。

要顯示全部列,請使用 $0

美元符號($)後的數字是表達式,因此 $2$(1+1) 是同一意思。

有條件地選擇列

你使用的示例文件非常結構化。它有一行充當標題,並且各列直接相互關聯。通過定義條件,你可以限定 awk 在找到此數據時返回的內容。例如,要查看第二列中與 yellow 匹配的項並列印第一列的內容:

awk '$2=="yellow"{print $1}' file1.txt
banana
pineapple

正則表達式也可以工作。此表達式近似匹配 $2 中以 p 開頭跟上任意數量(一個或多個)字元後繼續跟上 p 的值:

$ awk '$2 ~ /p.+p/ {print $0}' colours.txt
grape   purple  10
plum    purple  2

數字能被 awk 自然解釋。例如,要列印第三列包含大於 5 的整數的行:

awk '$3>5 {print $1, $2}' colours.txt
name    color
banana  yellow
grape   purple
apple   green
potato  brown

欄位分隔符

默認情況下,awk 使用空格作為欄位分隔符。但是,並非所有文本文件都使用空格來定義欄位。例如,用以下內容創建一個名為 colours.csv 的文件:

name,color,amount
apple,red,4
banana,yellow,6
strawberry,red,3
grape,purple,10
apple,green,8
plum,purple,2
kiwi,brown,4
potato,brown,9
pineapple,yellow,5

只要你指定將哪個字元用作命令中的欄位分隔符,awk 就能以完全相同的方式處理數據。使用 --field-separator(或簡稱為 -F)選項來定義分隔符:

$ awk -F"," '$2=="yellow" {print $1}' file1.csv
banana
pineapple

保存輸出

使用輸出重定向,你可以將結果寫入文件。例如:

$ awk -F, '$3>5 {print $1, $2} colours.csv > output.txt

這將創建一個包含 awk 查詢內容的文件。

你還可以將文件拆分為按列數據分組的多個文件。例如,如果要根據每行顯示的顏色將 colours.txt 拆分為多個文件,你可以在 awk 中包含重定向語句來重定向每條查詢

$ awk '{print > $2".txt"}' colours.txt

這將生成名為 yellow.txtred.txt 等文件。

在下一篇文章中,你將了解有關欄位,記錄和一些強大的 awk 變數的更多信息。

本文改編自社區技術播客 Hacker Public Radio

via: https://opensource.com/article/19/10/intro-awk

作者:Seth Kenlon 選題:lujun9972 譯者:geekpi 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國