Linux中國

Python 學習:urllib 簡介

接下來我們會分開討論除了 urllib.error 以外的幾部分。官方文檔實際推薦你嘗試第三方庫, requests,一個高級的 HTTP 客戶端介面。然而我依然認為知道如何不依賴第三方庫打開 URL 並與之進行交互是很有用的,而且這也可以幫助你理解為什麼 requests 包是如此的流行。

urllib.request

urllib.request 模塊期初是用來打開和獲取 URL 的。讓我們看看你可以用函數 urlopen 可以做的事:

>>> import urllib.request
>>> url = urllib.request.urlopen('https://www.google.com/')
>>> url.geturl()
'https://www.google.com/'
>>> url.info()
<http.client.HTTPMessage object at 0x7fddc2de04e0>
>>> header = url.info()
>>> header.as_string()
(&apos;Date: Fri, 24 Jun 2016 18:21:19 GMTn&apos;
 &apos;Expires: -1n&apos;
 &apos;Cache-Control: private, max-age=0n&apos;
 &apos;Content-Type: text/html; charset=ISO-8859-1n&apos;
 &apos;P3P: CP="This is not a P3P policy! See &apos;
 &apos;https://www.google.com/support/accounts/answer/151657?hl=en for more info."n&apos;
 &apos;Server: gwsn&apos;
 &apos;X-XSS-Protection: 1; mode=blockn&apos;
 &apos;X-Frame-Options: SAMEORIGINn&apos;
 &apos;Set-Cookie: &apos;
 &apos;NID=80=tYjmy0JY6flsSVj7DPSSZNOuqdvqKfKHDcHsPIGu3xFv41LvH_Jg6LrUsDgkPrtM2hmZ3j9V76pS4K_cBg7pdwueMQfr0DFzw33SwpGex5qzLkXUvUVPfe9g699Qz4cx9ipcbU3HKwrRYA; &apos;
 &apos;expires=Sat, 24-Dec-2016 18:21:19 GMT; path=/; domain=.google.com; HttpOnlyn&apos;
 &apos;Alternate-Protocol: 443:quicn&apos;
 &apos;Alt-Svc: quic=":443"; ma=2592000; v="34,33,32,31,30,29,28,27,26,25"n&apos;
 &apos;Accept-Ranges: nonen&apos;
 &apos;Vary: Accept-Encodingn&apos;
 &apos;Connection: closen&apos;
 &apos;n&apos;)
>>> url.getcode()
200

在這裡我們包含了需要的模塊,然後告訴它打開 Google 的 URL。現在我們就有了一個可以交互的 HTTPResponse 對象。我們要做的第一件事是調用方法 geturl ,它會返回根據 URL 獲取的資源。這可以讓我們發現 URL 是否進行了重定向。

接下來調用 info ,它會返回網頁的元數據,比如請求頭信息。因此,我們可以將結果賦給我們的 headers 變數,然後調用它的方法 as_string 。就可以列印出我們從 Google 收到的頭信息。你也可以通過 getcode 得到網頁的 HTTP 響應碼,當前情況下就是 200,意思是正常工作。

如果你想看看網頁的 HTML 代碼,你可以調用變數 url 的方法 read。我不準備再現這個過程,因為輸出結果太長了。

請注意 request 對象默認發起 GET 請求,除非你指定了它的 data 參數。如果你給它傳遞了 data 參數,這樣 request 對象將會變成 POST 請求。

下載文件

urllib 一個典型的應用場景是下載文件。讓我們看看幾種可以完成這個任務的方法:

>>> import urllib.request
>>> url = &apos;http://www.blog.pythonlibrary.org/wp-content/uploads/2012/06/wxDbViewer.zip&apos;
>>> response = urllib.request.urlopen(url)
>>> data = response.read()
>>> with open(&apos;/home/mike/Desktop/test.zip&apos;, &apos;wb&apos;) as fobj:
...     fobj.write(data)
...

這個例子中我們打開一個保存在我的博客上的 zip 壓縮文件的 URL。然後我們讀出數據並將數據寫到磁碟。一個替代此操作的方案是使用 urlretrieve :

>>> import urllib.request
>>> url = &apos;http://www.blog.pythonlibrary.org/wp-content/uploads/2012/06/wxDbViewer.zip&apos;
>>> tmp_file, header = urllib.request.urlretrieve(url)
>>> with open(&apos;/home/mike/Desktop/test.zip&apos;, &apos;wb&apos;) as fobj:
...     with open(tmp_file, &apos;rb&apos;) as tmp:
...         fobj.write(tmp.read())

方法 urlretrieve 會把網路對象拷貝到本地文件。除非你在使用 urlretrieve 的第二個參數指定你要保存文件的路徑,否則這個文件將被拷貝到臨時文件夾的隨機命名的一個文件中。這個可以為你節省一步操作,並且使代碼看起來更簡單:

>>> import urllib.request
>>> url = &apos;http://www.blog.pythonlibrary.org/wp-content/uploads/2012/06/wxDbViewer.zip&apos;
>>> urllib.request.urlretrieve(url, &apos;/home/mike/Desktop/blog.zip&apos;)
(&apos;/home/mike/Desktop/blog.zip&apos;,
 <http.client.HTTPMessage object at 0x7fddc21c2470>)

如你所見,它返回了文件保存的路徑,以及從請求得來的頭信息。

設置你的用戶代理

當你使用瀏覽器訪問網頁時,瀏覽器會告訴網站它是誰。這就是所謂的 user-agent (用戶代理)欄位。Python 的 urllib 會表示它自己為 Python-urllib/x.y , 其中 x 和 y 是你使用的 Python 的主、次版本號。有一些網站不認識這個用戶代理欄位,然後網站可能會有奇怪的表現或者根本不能正常工作。辛運的是你可以很輕鬆的設置你自己的 user-agent 欄位。

>>> import urllib.request
>>> user_agent = &apos; Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0&apos;
>>> url = &apos;http://www.whatsmyua.com/&apos;
>>> headers = {&apos;User-Agent&apos;: user_agent}
>>> request = urllib.request.Request(url, headers=headers)
>>> with urllib.request.urlopen(request) as response:
...     with open(&apos;/home/mdriscoll/Desktop/user_agent.html&apos;, &apos;wb&apos;) as out:
...         out.write(response.read())

這裡設置我們的用戶代理為 Mozilla FireFox ,然後我們訪問 http://www.whatsmyua.com/ , 它會告訴我們它識別出的我們的 user-agent 欄位。之後我們將 url 和我們的頭信息傳給 urlopen 創建一個 Request 實例。最後我們保存這個結果。如果你打開這個結果,你會看到我們成功的修改了自己的 user-agent 欄位。使用這段代碼盡情的嘗試不同的值來看看它是如何改變的。

urllib.parse

urllib.parse 庫是用來拆分和組合 URL 字元串的標準介面。比如,你可以使用它來轉換一個相對的 URL 為絕對的 URL。讓我們試試用它來轉換一個包含查詢的 URL :

>>> from urllib.parse import urlparse
>>> result = urlparse(&apos;https://duckduckgo.com/?q=python+stubbing&t=canonical&ia=qa&apos;)
>>> result
ParseResult(scheme=&apos;https&apos;, netloc=&apos;duckduckgo.com&apos;, path=&apos;/&apos;, params=&apos;&apos;, query=&apos;q=python+stubbing&t=canonical&ia=qa&apos;, fragment=&apos;&apos;)
>>> result.netloc
&apos;duckduckgo.com&apos;
>>> result.geturl()
&apos;https://duckduckgo.com/?q=python+stubbing&t=canonical&ia=qa&apos;
>>> result.port
None

這裡我們導入了函數 urlparse , 並且把一個包含搜索查詢字串的 duckduckgo 的 URL 作為參數傳給它。我的查詢字串是搜索關於 「python stubbing」 的文章。如你所見,它返回了一個 ParseResult 對象,你可以用這個對象了解更多關於 URL 的信息。舉個例子,你可以獲取到埠信息(本例中沒有埠信息)、網路位置、路徑和很多其它東西。

提交一個 Web 表單

這個模塊還有一個方法 urlencode 可以向 URL 傳輸數據。 urllib.parse 的一個典型使用場景是提交 Web 表單。讓我們通過搜索引擎 duckduckgo 搜索 Python 來看看這個功能是怎麼工作的。

>>> import urllib.request
>>> import urllib.parse
>>> data = urllib.parse.urlencode({&apos;q&apos;: &apos;Python&apos;})
>>> data
&apos;q=Python&apos;
>>> url = &apos;http://duckduckgo.com/html/&apos;
>>> full_url = url + &apos;?&apos; + data
>>> response = urllib.request.urlopen(full_url)
>>> with open(&apos;/home/mike/Desktop/results.html&apos;, &apos;wb&apos;) as f:
...     f.write(response.read())

這個例子很直接。基本上我們是使用 Python 而不是瀏覽器向 duckduckgo 提交了一個查詢。要完成這個我們需要使用 urlencode 構建我們的查詢字元串。然後我們把這個字元串和網址拼接成一個完整的正確 URL ,然後使用 urllib.request 提交這個表單。最後我們就獲取到了結果然後保存到磁碟上。

urllib.robotparser

robotparser 模塊是由一個單獨的類 RobotFileParser 構成的。這個類會回答諸如一個特定的用戶代理是否獲取已經設置了 robot.txt 的網站的 URL。 robot.txt 文件會告訴網路爬蟲或者機器人當前網站的那些部分是不允許被訪問的。讓我們看一個簡單的例子:

>>> import urllib.robotparser
>>> robot = urllib.robotparser.RobotFileParser()
>>> robot.set_url(&apos;http://arstechnica.com/robots.txt&apos;)
None
>>> robot.read()
None
>>> robot.can_fetch(&apos;*&apos;, &apos;http://arstechnica.com/&apos;)
True
>>> robot.can_fetch(&apos;*&apos;, &apos;http://arstechnica.com/cgi-bin/&apos;)
False

這裡我們導入了 robot 分析器類,然後創建一個實例。然後我們給它傳遞一個表明網站 robots.txt 位置的 URL 。接下來我們告訴分析器來讀取這個文件。完成後,我們給它了一組不同的 URL 讓它找出那些我們可以爬取而那些不能爬取。我們很快就看到我們可以訪問主站但是不能訪問 cgi-bin 路徑。

總結一下

現在你就有能力使用 Python 的 urllib 包了。在這一節里,我們學習了如何下載文件、提交 Web 表單、修改自己的用戶代理以及訪問 robots.txt。 urllib 還有一大堆附加功能沒有在這裡提及,比如網站身份認證。你可能會考慮在使用 urllib 進行身份認證之前切換到 requests 庫,因為 requests 已經以更易用和易調試的方式實現了這些功能。我同時也希望提醒你 Python 已經通過 http.cookies 模塊支持 Cookies 了,雖然在 request 包里也很好的封裝了這個功能。你應該可能考慮同時試試兩個來決定那個最適合你。

via: http://www.blog.pythonlibrary.org/2016/06/28/python-101-an-intro-to-urllib/

作者:Mike 譯者:Ezio 校對:wxy

本文由 LCTT 原創翻譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的郵箱地址不會被公開。 必填項已用 * 標註

    這個站點使用 Akismet 來減少垃圾評論。了解你的評論數據如何被處理

    More in:Linux中國

    Linux中國

    捐贈 Let&apos;s Encrypt,共建安全的互聯網

    隨著 Mozilla、蘋果和谷歌對沃通和 StartCom 這兩家 CA 公司處罰落定,很多使用這兩家 CA 所簽發證書的網站紛紛尋求新的證書籤發商。有一個非盈利組織可以為大家提供了免費、可靠和安全的 SSL 證書服務,這就是 Let's Encrypt 項目。現在,它需要您的幫助
    Linux中國

    關於Linux防火牆iptables的面試問答

    Nishita Agarwal是Tecmint的用戶,她將分享關於她剛剛經歷的一家公司(印度的一家私人公司Pune)的面試經驗。在面試中她被問及許多不同的問題,但她是iptables方面的專家,因此她想分享這些關於iptables的問題和相應的答案給那些以後可能會進行相關面試的人。 所有的問題和相應的答案都基於Nishita Agarwal的記憶並經過了重寫。 嗨,朋友!我叫Nishita Agarwal。我已經取得了理學學士學位,我的專業集中在UNIX和它的變種(BSD,Linux)。它們一直深深的吸引著我。我在存儲方面有1年多的經驗。我正在尋求職業上的變化,並將供職於印度的P
    Linux中國

    Lets Encrypt 已被所有主流瀏覽器所信任

    旨在讓每個網站都能使用 HTTPS 加密的非贏利組織 Lets Encrypt 已經得了 IdenTrust的交叉簽名,這意味著其證書現在已經可以被所有主流的瀏覽器所信任。從這個裡程碑事件開始,訪問者訪問使用了Lets Encrypt 證書的網站不再需要特別配置就可以得到 HTTPS 安全保護了。 Lets Encrypt 的兩個中級證書 ...