如何把 awk 腳本移植到 Python

腳本是解決問題的有效方法，而 awk 是編寫腳本的出色語言。它特別擅長於簡單的文本處理，它可以帶你完成配置文件的某些複雜重寫或目錄中文件名的重新格式化。

何時從 awk 轉向 Python

但是在某些方面，awk 的限制開始顯現出來。它沒有將文件分解為模塊的真正概念，它缺乏質量錯誤報告，並且缺少了現在被認為是編程語言工作原理的其他內容。當編程語言的這些豐富功能有助於維護關鍵腳本時，移植將是一個不錯的選擇。

我最喜歡的完美移植 awk 的現代編程語言是 Python。

在將 awk 腳本移植到 Python 之前，通常值得考慮一下其原始使用場景。例如，由於 awk 的局限性，通常從 Bash 腳本調用 awk 代碼，其中包括一些對 sed、sort 之類的其它命令行常見工具的調用。最好將所有內容轉換為一個一致的 Python 程序。有時，腳本會做出過於寬泛的假設，例如，即使實際上只運行一個文件，該代碼也可能允許任意數量的文件。

在仔細考慮了上下文並確定了要用 Python 替代的東西之後，該編寫代碼了。

標準 awk 到 Python 功能

以下 Python 功能是有用的，需要記住：

with open(some_file_name) as fpin:
    for line in fpin:
        pass # do something with line

此代碼將逐行循環遍歷文件並處理這些行。

如果要訪問行號（相當於 awk 的 NR），則可以使用以下代碼：

with open(some_file_name) as fpin:
    for nr, line in enumerate(fpin):
        pass # do something with line

在 Python 中實現多文件的 awk 式行為

如果你需要能夠遍歷任意數量的文件同時保持行數的持續計數（類似 awk 的 FNR），則此循環可以做到這一點：

def awk_like_lines(list_of_file_names):
    def _all_lines():
        for filename in list_of_file_names:
            with open(filename) as fpin:
                yield from fpin
    yield from enumerate(_all_lines())

此語法使用 Python 的生成器和 yield from 來構建迭代器，該迭代器將遍歷所有行並保持一個持久計數。

如果你需要同時使用 FNR 和 NR，這是一個更複雜的循環：

def awk_like_lines(list_of_file_names):
    def _all_lines():
        for filename in list_of_file_names:
            with open(filename) as fpin:
                yield from enumerate(fpin)
    for nr, (fnr, line) in _all_lines:
        yield nr, fnr, line

更複雜的 FNR、NR 和行數的 awk 行為

如果 FNR、NR 和行數這三個你全都需要，仍然會有一些問題。如果確實如此，則使用三元組（其中兩個項目是數字）會導致混淆。命名參數可使該代碼更易於閱讀，因此最好使用 dataclass：

import dataclass

@dataclass.dataclass(frozen=True)
class AwkLikeLine:
    content: str
    fnr: int
    nr: int

def awk_like_lines(list_of_file_names):
    def _all_lines():
        for filename in list_of_file_names:
            with open(filename) as fpin:
                yield from enumerate(fpin)
    for nr, (fnr, line) in _all_lines:
        yield AwkLikeLine(nr=nr, fnr=fnr, line=line)

你可能想知道，為什麼不一直用這種方法呢？使用其它方式的的原因是總用這種方法太複雜了。如果你的目標是把一個通用庫更容易地從 awk 移植到 Python，請考慮這樣做。但是編寫一個可以使你確切地了解特定情況所需的循環的方法通常更容易實現，也更容易理解（因而易於維護）。

理解 awk 欄位

一旦有了與一行相對應的字元串，如果要轉換 awk 程序，則通常需要將其分解為欄位。Python 有幾種方法可以做到這一點。這將把行按任意數量的連續空格拆分，返回一個字元串列表：

line.split()

如果需要另一個欄位分隔符，比如以 : 分隔行，則需要 rstrip 方法來刪除最後一個換行符：

line.rstrip("n").split(":")

完成以下操作後，列表 parts 將存有分解的字元串：

parts = line.rstrip("n").split(":")

這種拆分非常適合用來處理參數，但是我們處於偏差一個的錯誤場景中。現在 parts[0] 將對應於 awk 的 $1，parts[1] 將對應於 awk 的 $2，依此類推。之所以偏差一個，是因為 awk 計數「欄位」從 1 開始，而 Python 從 0 開始計數。在 awk 中，$0 是整個行 —— 等同於 line.rstrip("n")，而 awk 的 NF（欄位數）更容易以 len(parts) 的形式得到。

移植 awk 欄位到 Python

例如，讓我們將這個單行代碼「如何使用 awk 從文件中刪除重複行」轉換為 Python。

awk 中的原始代碼是：

awk &apos;!visited[$0]++&apos; your_file > deduplicated_file

「真實的」 Python 轉換將是：

import collections
import sys

visited = collections.defaultdict(int)
for line in open("your_file"):
    did_visit = visited[line]
    visited[line] += 1
    if not did_visit:
        sys.stdout.write(line)

但是，Python 比 awk 具有更多的數據結構。與其計數訪問次數（除了知道是否看到一行，我們不使用它），為什麼不記錄訪問的行呢？

import sys

visited = set()
for line in open("your_file"):
    if line in visited:
        continue
    visited.add(line)
    sys.stdout.write(line)

編寫 Python 化的 awk 代碼

Python 社區提倡編寫 Python 化的代碼，這意味著它要遵循公認的代碼風格。更加 Python 化的方法將區分唯一性和輸入/輸出的關注點。此更改將使對代碼進行單元測試更加容易：

def unique_generator(things):
    visited = set()
    for thing in things:
        if thing in visited:
            continue
        visited.add(things)
        yield thing

import sys

for line in unique_generator(open("your_file")):
    sys.stdout.write(line)

將所有邏輯置於輸入/輸出代碼之外，可以更好地分離問題，並提高代碼的可用性和可測試性。

結論：Python 可能是一個不錯的選擇

將 awk 腳本移植到 Python 時，通常是在考慮適當的 Python 代碼風格時重新實現核心需求，而不是按條件/操作進行笨拙的音譯。考慮原始上下文併產生高質量的 Python 解決方案。雖然有時候使用 awk 的 Bash 單行代碼可以完成這項工作，但 Python 編碼是通往更易於維護的代碼的途徑。

另外，如果你正在編寫 awk 腳本，我相信您也可以學習 Python！如果你有任何疑問，請告訴我。

via: https://opensource.com/article/19/11/awk-to-python

作者：Moshe Zadka 選題：lujun9972 譯者：wxy 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何？

太棒了

不錯

愛死了

不太好

感覺很糟

Rain

雨落清風。心向陽

如何把 awk 腳本移植到 Python

何時從 awk 轉向 Python

標準 awk 到 Python 功能

在 Python 中實現多文件的 awk 式行為

更複雜的 FNR、NR 和行數的 awk 行為

理解 awk 欄位

移植 awk 欄位到 Python

編寫 Python 化的 awk 代碼

結論：Python 可能是一個不錯的選擇

對這篇文章感覺如何？

在 AWS 中使用 Ansible 來管理你的 SSH 密鑰

自動共享和上傳文件到兼容的託管站點

Leave a reply 取消回復

More in:Linux中國

捐贈 Let's Encrypt，共建安全的互聯網

Let's Encrypt 正式發布，已經保護 380 萬個域名

關於Linux防火牆iptables的面試問答

Lets Encrypt 已被所有主流瀏覽器所信任

中文操作系統論壇

關注 LinuxStory

開源學村

編程類開放書籍薈萃

如何殺死 Linux 中的殭屍進程

2022年，從學習Rust開始

使用 Linux 命令行解決Wordle 問題

5本學習 TeX 的最佳免費書籍

Makefile 簡介

Linux 內核補丁提交初體驗

Linux 的前世今生 – 1

特別關注

更開放的分散式事務 | Fescar 品牌升級，更名為 Seata

HeRM’s – 一個命令食譜管理器

使用 Let's Encrypt 保護你的網站

LinuxStory

加入 LinuxStory 交流群組

投票調查

最熱標籤

何時從 awk 轉向 Python

標準 awk 到 Python 功能

在 Python 中實現多文件的 awk 式行為

更複雜的 FNR、NR 和行數的 awk 行為

理解 awk 欄位

移植 awk 欄位到 Python

編寫 Python 化的 awk 代碼

結論：Python 可能是一個不錯的選擇

分享

對這篇文章感覺如何？

You may also like

Leave a reply 取消回復

More in:Linux中國

中文操作系統論壇

關注 LinuxStory

開源學村

特別關注

最新文章

最熱標籤