使用 curl 從命令行訪問互聯網
curl
通常被視作一款非互動式 Web 瀏覽器,這意味著它能夠從互聯網上獲取信息,並在你的終端中顯示,或將其保存到文件中。從表面看,這是 Web 瀏覽器,類似 Firefox 或 Chromium 所做的工作,只是它們默認情況下會渲染信息,而 curl
會下載並顯示原始信息。實際上,curl
命令可以做更多的事情,並且能夠使用多種協議與伺服器進行雙向傳輸數據,這些協議包括 HTTP、FTP、SFTP、IMAP、POP3、LDAP、SMB、SMTP 等。對於普通終端用戶來說,這是一個有用的工具;而對於系統管理員,這非常便捷;對於微服務和雲開發人員來說,它是一個質量保證工具。
curl
被設計為在沒有用戶交互的情況下工作,因此與 Firefox 不同,你必須從頭到尾考慮與在線數據的交互。例如,如果想要在 Firefox 中查看網頁,你需要啟動 Firefox 窗口。打開 Firefox 後,在地址欄或搜索引擎中輸入要訪問的網站。然後,導航到網站,然後單擊要查看的頁面。
對於 curl
來說也是如此,不同之處在於你需要一次執行所有操作:在啟動 curl
的同時提供需要訪問的互聯網地址,並告訴它是否要將數據保存在終端或文件中。當你必須與需要身份驗證的網站或 API 進行交互時,會變得有點複雜,但是一旦你學習了 curl
命令語法,它就會變得自然而然。為了幫助你掌握它,我們在一個方便的備忘錄中收集了相關的語法信息。
使用 curl 下載文件
你可以通過提供指向特定 URL 的鏈接來使用 curl
命令下載文件。如果你提供的 URL 默認為 index.html
,那麼將下載此頁面,並將下載的文件顯示在終端屏幕上。你可以將數據通過管道傳遞到 less
、tail
或任何其它命令:
$ curl "http://example.com" | tail -n 4
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div></body></html>
由於某些 URL 包含特殊字元,shell 通常會將其解釋,因此最安全的做法用引號將 URL 包起來。
某些文件無法很好的在終端中轉換顯示。你可以使用 --remote-name
選項使文件根據伺服器上的命名進行保存:
$ curl --remote-name "https://example.com/linux-distro.iso"
$ ls
linux-distro.iso
或者,你可以使用 --output
選項來命名你想要下載的內容:
curl "http://example.com/foo.html" --output bar.html
使用 curl 列出帶有遠程目錄的內容
因為 curl
不是互動式的,所以很難瀏覽頁面上的可下載元素。如果你要連接的遠程伺服器允許,可以使用 curl
來列出目錄的內容:
$ curl --list-only "https://example.com/foo/"
繼續中斷下載
如果你正在下載一個非常大的文件,你可能會發現有時候必須中斷下載。curl
非常智能,可以確定下載從何處中斷並繼續下載。這意味著,下一次當你下載一個 4GB 的 Linux 發行版的 ISO 出現問題時,就不必重新開始了。--continue-at
的語法有點不尋常:如果你知道下載中斷時的位元組數,你可以提供給 curl
;否則,你可以使用單獨的一個破折號(-
)指示 curl 自動檢測:
$ curl --remote-name --continue-at - "https://example.com/linux-distro.iso"
下載文件序列
如果你需要下載多個文件而不是一個大文件,那麼 curl
可以幫助你解決這個問題。假設你知道要下載的文件的位置和文件名模式,則可以使用 curl
的序列標記:中括弧里是整數範圍的起點和終點。對於輸出文件名,使用 #1
表示第一個變數:
$ curl "https://example.com/file_[1-4].webp" --output "file_#1.webp"
如果你需要使用其它變數來表示另一個序列,按照每個變數在命令中出現的順序表示它們。例如,在這個命令中,#1
指目錄 images_000
到 images_009
,而 #2
指目錄 file_1.webp
至 file_4.webp
:
$ curl "https://example.com/images_00[0-9]/file_[1-4].webp" --output "file_#1-#2.webp"
從站點下載所有 PNG 文件
你也可以僅使用 curl
和 grep
進行一些基本的 Web 抓取操作,以找到想要下載的內容。例如,假設你需要下載與正在歸檔網頁關聯的所有圖像,首先,下載引用了圖像的頁面。將頁面內通過管道傳輸到 grep
,搜索所需的圖片類型(在此示例中為 PNG)。最後,創建一個 while
循環來構造下載 URL,並將文件保存到你的計算機:
$ curl https://example.com |
grep --only-matching 'src="[^"]*.[png]"' |
cut -d" -f2 |
while read i; do
curl https://example.com/"${i}" -o "${i##*/}";
done
這只是一個示例,但它展示了 curl
與 Unix 管道和一些基本而巧妙的解析結合使用時是多麼的靈活。
獲取 HTML 頭
用於數據交換的協議在計算機發送通信的數據包中嵌入了大量元數據。HTTP 頭是數據初始部分的組件。在連接一個網站出現問題時,查看這些報文頭(尤其是響應碼)會有所幫助:
curl --head "https://example.com"
HTTP/2 200
accept-ranges: bytes
age: 485487
cache-control: max-age=604800
content-type: text/html; charset=UTF-8
date: Sun, 26 Apr 2020 09:02:09 GMT
etag: "3147526947"
expires: Sun, 03 May 2020 09:02:09 GMT
last-modified: Thu, 17 Oct 2019 07:18:26 GMT
server: ECS (sjc/4E76)
x-cache: HIT
content-length: 1256
快速失敗
響應 200 通常是 HTTP 成功指示符,這是你與伺服器連接時通常期望的結果。著名的 404 響應表示找不到頁面,而 500 則表示伺服器在處理請求時出現了錯誤。
要查看協商過程中發生了什麼錯誤,添加 --show-error
選項:
$ curl --head --show-error "http://opensource.ga"
除非你可以訪問要連接的伺服器,否則這些問題將很難解決,但是 curl
通常會儘力連接你指定的地址。有時在網路上進行測試時,無休止的重試似乎只會浪費時間,因此你可以使用 --fail-early
選項來強制 curl
在失敗時迅速退出:
curl --fail-early "http://opensource.ga"
由 3xx 響應指定的重定向查詢
300 這個系列的響應更加靈活。具體來說,301 響應意味著一個 URL 已被永久移動到其它位置。對於網站管理員來說,重新定位內容並留下「痕迹」是一種常見的方式,這樣訪問舊地址的人們仍然可以找到它。默認情況下,curl
不會進行 301 重定向,但你可以使用 --localtion
選項使其繼續進入 301 響應指向的目標:
$ curl "https://iana.org" | grep title
<title>301 Moved Permanently</title>
$ curl --location "https://iana.org"
<title>Internet Assigned Numbers Authority</title>
展開短網址
如果你想要在訪問短網址之前先查看它們,那麼 --location
選項非常有用。短網址對於有字元限制的社交網路(當然,如果你使用現代和開源的社交網路的話,這可能不是問題),或者對於用戶不能複製粘貼長地址的印刷媒體來說是有用處的。但是,它們也可能存在風險,因為其目的地址本質上是隱藏的。通過結合使用 --head
選項僅查看 HTTP 頭,--location
選項可以查看一個 URL 的最終地址,你可以查看一個短網址而無需載入其完整的資源:
$ curl --head --location "<https://bit.ly/2yDyS4T>"
下載我們的 curl 備忘錄
一旦你開始考慮了將探索 web 由一條命令來完成,那麼 curl
就成為一種快速有效的方式,可以從互聯網上獲取所需的信息,而無需麻煩圖形界面。為了幫助你適應到工作流中,我們創建了一個 curl 備忘錄,它包含常見的 curl
用法和語法,包括使用它查詢 API 的概述。
via: https://opensource.com/article/20/5/curl-cheat-sheet
作者:Seth Kenlon 選題:lujun9972 譯者:MjSeven 校對:wxy
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive