Linux中國

awk 系列:如何使用 awk 的特殊模式 BEGIN 和 END

學習 awk 的模式 BEGIN 和 END

隨著我們逐漸展開,並探索出更多構建複雜 awk 操作的方法,將會證明 awk 的這些特殊功能的是多麼強大。

開始前,先讓我們回顧一下 awk 系列的介紹,記得當我們開始這個系列時,我就指出 awk 指令的通用語法是這樣的:

# awk 'script' filenames  

在上述語法中,awk 腳本擁有這樣的形式:

/pattern/ { actions } 

你通常會發現腳本中的模式(/pattern/)是一個正則表達式,此外,你也可以在這裡用特殊模式 BEGINEND。因此,我們也能按照下面的形式編寫一條 awk 命令:

awk '
BEGIN { actions } 
/pattern/ { actions }
/pattern/ { actions }
……….
END { actions } 
' filenames  

假如你在 awk 腳本中使用了特殊模式:BEGINEND,以下則是它們對應的含義:

  • BEGIN 模式:是指 awk 將在讀取任何輸入行之前立即執行 BEGIN 中指定的動作。
  • END 模式:是指 awk 將在它正式退出前執行 END 中指定的動作。

含有這些特殊模式的 awk 命令腳本的執行流程如下:

  1. 當在腳本中使用了 BEGIN 模式,則 BEGIN 中所有的動作都會在讀取任何輸入行之前執行。
  2. 然後,讀入一個輸入行並解析成不同的段。
  3. 接下來,每一條指定的非特殊模式都會和輸入行進行比較匹配,當匹配成功後,就會執行模式對應的動作。對所有你指定的模式重複此執行該步驟。
  4. 再接下來,對於所有輸入行重複執行步驟 2 和 步驟 3。
  5. 當讀取並處理完所有輸入行後,假如你指定了 END 模式,那麼將會執行相應的動作。

當你使用特殊模式時,想要在 awk 操作中獲得最好的結果,你應當記住上面的執行順序。

為了便於理解,讓我們使用第八節的例子進行演示,那個例子是關於 Tecmint 擁有的域名列表,並保存在一個叫做 domains.txt 的文件中。

news.tecmint.com
tecmint.com
linuxsay.com
windows.tecmint.com
tecmint.com
news.tecmint.com
tecmint.com
linuxsay.com
tecmint.com
news.tecmint.com
tecmint.com
linuxsay.com
windows.tecmint.com
tecmint.com
$ cat ~/domains.txt

查看文件內容

在這個例子中,我們希望統計出 domains.txt 文件中域名 tecmint.com 出現的次數。所以,我們編寫了一個簡單的 shell 腳本幫助我們完成任務,它使用了變數、數學表達式和賦值運算符的思想,腳本內容如下:

#!/bin/bash
for file in $@; do
if [ -f $file ] ; then
### 輸出文件名
echo "File is: $file"
### 輸出一個遞增的數字記錄包含 tecmint.com 的行數
awk '/^tecmint.com/ { counter+=1 ; printf "%sn", counter ; }' $file
else
### 若輸入不是文件,則輸出錯誤信息
echo "$file 不是一個文件,請指定一個文件。" >&2 && exit 1
fi
done
### 成功執行後使用退出代碼 0 終止腳本
exit 0

現在讓我們像下面這樣在上述腳本的 awk 命令中應用這兩個特殊模式:BEGINEND

我們應當把腳本:

awk '/^tecmint.com/ { counter+=1 ; printf "%sn", counter ; }' $file

改成:

awk ' BEGIN {  print "文件中出現 tecmint.com 的次數是:" ; }
/^tecmint.com/ {  counter+=1  ;  }
END {  printf "%sn",  counter  ; } 
'  $file

在修改了 awk 命令之後,現在完整的 shell 腳本就像下面這樣:

#!/bin/bash
for file in $@; do
if [ -f $file ] ; then
### 輸出文件名
echo "File is: $file"
### 輸出文件中 tecmint.com 出現的總次數
awk ' BEGIN {  print "文件中出現 tecmint.com 的次數是:" ; }
/^tecmint.com/ {  counter+=1  ;  }
END {  printf "%sn",  counter  ; } 
'  $file
else
### 若輸入不是文件,則輸出錯誤信息
echo "$file 不是一個文件,請指定一個文件。" >&2 && exit 1
fi
done
### 成功執行後使用退出代碼 0 終止腳本
exit 0

awk 模式 BEGIN 和 END

當我們運行上面的腳本時,它會首先輸出 domains.txt 文件的位置,然後執行 awk 命令腳本,該命令腳本中的特殊模式 BEGIN 將會在從文件讀取任何行之前幫助我們輸出這樣的消息「文件中出現 tecmint.com 的次數是:」。

接下來,我們的模式 /^tecmint.com/ 會在每個輸入行中進行比較,對應的動作 { counter+=1 ; } 會在每個匹配成功的行上執行,它會統計出 tecmint.com 在文件中出現的次數。

最終,END 模式將會輸出域名 tecmint.com 在文件中出現的總次數。

$ ./script.sh ~/domains.txt 

用於統計字元串出現次數的腳本

最後總結一下,我們在本節中演示了更多的 awk 功能,並學習了特殊模式 BEGINEND 的概念。

正如我之前所言,這些 awk 功能將會幫助我們構建出更複雜的文本過濾操作。第十節將會給出更多的 awk 功能,我們將會學習 awk 內置變數的思想,所以,請繼續保持關注。

via: http://www.tecmint.com/learn-use-awk-special-patterns-begin-and-end/

作者:Aaron Kili 譯者:ChrisLeeGit 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的電子郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國