練習使用 Linux 的 grep 命令

grep（全局正則表達式列印 Global Regular Expression Print ）是由 Ken Thompson 早在 1974 年開發的基本 Unix 命令之一。在計算領域，它無處不在，通常被用作為動詞（「搜索一個文件中的內容」）。如果你的談話對象有極客精神，那麼它也能在真實生活場景中使用。（例如，「我會 grep 我的內存條來回想起那些信息。」）簡而言之，grep 是一種用特定的字元模式來搜索文件中內容的方式。如果你感覺這聽起來像是文字處理器或文本編輯器的現代 Find 功能，那麼你就已經在計算行業感受到了 grep 的影響。

grep 絕不是被現代技術拋棄的遠古命令，它的強大體現在兩個方面：

grep 可以在終端操作數據流，因此你可以把它嵌入到複雜的處理中。你不僅可以在一個文本文件中查找文字，還可以提取文字後把它發給另一個命令。
grep 使用正則表達式來提供靈活的搜索能力。

雖然需要一些練習，但學習 grep 命令還是很容易的。本文會介紹一些我認為 grep 最有用的功能。

下載我們免費的 grep 備忘錄

安裝 grep

Linux 默認安裝了 grep。

MacOS 默認安裝了 BSD 版的 grep。BSD 版的 grep 跟 GNU 版有一點不一樣，因此如果你想完全參照本文，那麼請使用 Homebrew 或 MacPorts 安裝 GNU 版的 grep。

基礎的 grep

所有版本的 grep 基礎語法都一樣。入參是匹配模式和你需要搜索的文件。它會把匹配到的每一行輸出到你的終端。

$ grep gnu gpl-3.0.txt
    along with this program.  If not, see <http://www.gnu.org/licenses/>.
<http://www.gnu.org/licenses/>.
<http://www.gnu.org/philosophy/why-not-lgpl.html>.

grep 命令默認大小寫敏感，因此「gnu」、「GNU」、「Gnu」是三個不同的值。你可以使用 --ignore-case 選項來忽略大小寫。

$ grep --ignore-case gnu gpl-3.0.txt
                    GNU GENERAL PUBLIC LICENSE
  The GNU General Public License is a free, copyleft license for
the GNU General Public License is intended to guarantee your freedom to
GNU General Public License for most of our software; it applies also to
[...16 more results...]
<http://www.gnu.org/licenses/>.
<http://www.gnu.org/philosophy/why-not-lgpl.html>.

你也可以通過 --invert-match 選項來輸出所有沒有匹配到的行：

$ grep --invert-match 
--ignore-case gnu gpl-3.0.txt
                      Version 3, 29 June 2007

 Copyright (C) 2007 Free Software Foundation, Inc. <http://fsf.org/>
[...648 lines...]
Public License instead of this License.  But first, please read

管道

能搜索文件中的文本內容是很有用的，但是 POSIX 的真正強大之處是可以通過「管道」來連接多條命令。我發現我使用 grep 最好的方式是把它與其他工具如 cut、tr 或 curl 聯合使用。

假如現在有一個文件，文件中每一行是我想要下載的技術論文。我可以打開文件手動點擊每一個鏈接，然後點擊火狐瀏覽器的選項把每一個文件保存到我的硬碟，但是需要點擊多次且耗費很長時間。而我還可以搜索文件中的鏈接，用 --only-matching 選項只列印出匹配到的字元串。

$ grep --only-matching http://.*pdf example.html
http://example.com/linux_whitepaper.pdf
http://example.com/bsd_whitepaper.pdf
http://example.com/important_security_topic.pdf

輸出是一系列的 URL，每行一個。而這與 Bash 處理數據的方式完美契合，因此我不再把 URL 列印到終端，而是把它們通過管道傳給 curl：

$ grep --only-matching http://.*pdf 
example.html | curl --remote-name

這條命令可以下載每一個文件，然後以各自的遠程文件名命名保存在我的硬碟上。

這個例子中我的搜索模式可能很晦澀。那是因為它用的是正則表達式，一種在大量文本中進行模糊搜索時非常有用的」通配符「語言。

正則表達式

沒有人會覺得正則表達式 regular expression （簡稱「regex」）很簡單。然而，我發現它的名聲往往比它應得的要差。誠然，很多人在使用正則表達式時「過於炫耀聰明」，直到它變得難以閱讀，大而全，以至於複雜得換行才好理解，但是你不必過度使用正則。這裡簡單介紹一下我使用正則表達式的方式。

首先，創建一個名為 example.txt 的文件，輸入以下內容：

Albania
Algeria
Canada
0
1
3
11

最基礎的元素是不起眼的 . 字元。它表示一個字元。

$ grep Can.da example.txt
Canada

模式 Can.da 能成功匹配到 Canada 是因為 . 字元表示任意一個字元。

可以使用下面這些符號來使 . 通配符表示多個字元：

? 匹配前面的模式零次或一次
* 匹配前面的模式零次或多次
+ 匹配前面的模式一次或多次
{4} 匹配前面的模式 4 次（或是你在括弧中寫的其他次數）

了解了這些知識後，你可以用你認為有意思的所有模式來在 example.txt 中做練習。可能有些會成功，有些不會成功。重要的是你要去分析結果，這樣你才會知道原因。

例如，下面的命令匹配不到任何國家：

$ grep A.a example.txt

因為 . 字元只能匹配一個字元，除非你增加匹配次數。使用 * 字元，告訴 grep 匹配一個字元零次或者必要的任意多次直到單詞末尾。因為你知道你要處理的內容，因此在本例中零次是沒有必要的。在這個列表中一定沒有單個字母的國家。因此，你可以用 + 來匹配一個字元至少一次且任意多次直到單詞末尾：

$ grep A.+a example.txt
Albania
Algeria

你可以使用方括弧來提供一系列的字母：

$ grep [A,C].+a example.txt
Albania
Algeria
Canada

也可以用來匹配數字。結果可能會震驚你：

$ grep [1-9] example.txt
1
3
11

看到 11 出現在搜索數字 1 到 9 的結果中，你驚訝嗎？

如果把 13 加到搜索列表中，會出現什麼結果呢？

這些數字之所以會被匹配到，是因為它們包含 1，而 1 在要匹配的數字中。

你可以發現，正則表達式有時會令人費解，但是通過體驗和練習，你可以熟練掌握它，用它來提高你搜索數據的能力。

下載備忘錄

grep 命令還有很多文章中沒有列出的選項。有用來更好地展示匹配結果、列出文件、列出匹配到的行號、通過列印匹配到的行周圍的內容來顯示上下文的選項，等等。如果你在學習 grep，或者你經常使用它並且通過查閱它的幫助頁面來查看選項，那麼你可以下載我們的備忘錄。這個備忘錄使用短選項（例如，使用 -v，而不是 --invert-matching）來幫助你更好地熟悉 grep。它還有一部分正則表達式可以幫你記住用途最廣的正則表達式代碼。現在就下載 grep 備忘錄！

via: https://opensource.com/article/21/3/grep-cheat-sheet

作者：Seth Kenlon 選題：lujun9972 譯者：lxbwolf 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何？

太棒了

不錯

愛死了

不太好

感覺很糟

Rain

雨落清風。心向陽

練習使用 Linux 的 grep 命令

安裝 grep

基礎的 grep

管道

正則表達式

下載備忘錄

對這篇文章感覺如何？

關於撤銷支持 RMS 重返 FSF 的說明

2021 年要嘗試的 3 個新的 Java 工具

Leave a reply 取消回復

More in:Linux中國

捐贈 Let's Encrypt，共建安全的互聯網

Let's Encrypt 正式發布，已經保護 380 萬個域名

關於Linux防火牆iptables的面試問答

Lets Encrypt 已被所有主流瀏覽器所信任

中文操作系統論壇

關注 LinuxStory

開源學村

編程類開放書籍薈萃

如何殺死 Linux 中的殭屍進程

2022年，從學習Rust開始

使用 Linux 命令行解決Wordle 問題

5本學習 TeX 的最佳免費書籍

Makefile 簡介

Linux 內核補丁提交初體驗

Linux 的前世今生 – 1

特別關注

更開放的分散式事務 | Fescar 品牌升級，更名為 Seata

HeRM’s – 一個命令食譜管理器

使用 Let's Encrypt 保護你的網站

LinuxStory

加入 LinuxStory 交流群組

投票調查

最熱標籤

安裝 grep

基礎的 grep

管道

正則表達式

下載備忘錄

分享

對這篇文章感覺如何？

You may also like

Leave a reply 取消回復

More in:Linux中國

中文操作系統論壇

關注 LinuxStory

開源學村

特別關注

最新文章

最熱標籤