如何在Ubuntu 14.04 LTS安裝網路爬蟲工具：Scrapy

Scrapy依賴於Python、開發庫和pip。Python最新的版本已經在Ubuntu上預裝了。因此我們在安裝Scrapy之前只需安裝pip和python開發庫就可以了。

pip是作為python包索引器easy_install的替代品，用於安裝和管理Python包。pip包的安裝可見圖 1。

sudo apt-get install python-pip

Fig:1 Pip installation

圖:1 pip安裝

我們必須要用下面的命令安裝python開發庫。如果包沒有安裝那麼就會在安裝scrapy框架的時候報關於python.h頭文件的錯誤。

sudo apt-get install python-dev

Fig:2 Python Developer Libraries

圖:2 Python 開發庫

scrapy框架既可從deb包安裝也可以從源碼安裝。在圖3中我們用pip（Python 包管理器）安裝了deb包了。

sudo pip install scrapy

Fig:3 Scrapy Installation

圖:3 Scrapy 安裝

圖4中scrapy的成功安裝需要一些時間。

Fig:4 Successful installation of Scrapy Framework

圖:4 成功安裝Scrapy框架

使用scrapy框架提取數據

基礎教程

我們將用scrapy從fatwallet.com上提取商店名稱（賣卡的店）。首先，我們使用下面的命令新建一個scrapy項目「store name」，見圖5。

$sudo scrapy startproject store_name

Fig:5 Creation of new project in Scrapy Framework

圖:5 Scrapy框架新建項目

上面的命令在當前路徑創建了一個「store_name」的目錄。項目主目錄下包含的文件/文件夾見圖6。

$sudo ls –lR store_name

Fig:6 Contents of store_name project.

圖:6 store_name項目的內容

每個文件/文件夾的概要如下：

scrapy.cfg 是項目配置文件
store_name/ 主目錄下的另一個文件夾。這個目錄包含了項目的python代碼
store_name/items.py 包含了將由蜘蛛爬取的項目
store_name/pipelines.py 是管道文件
store_name/settings.py 是項目的配置文件
store_name/spiders/，包含了用於爬取的蜘蛛

由於我們要從fatwallet.com上如提取店名，因此我們如下修改文件（LCTT 譯註：這裡沒說明是哪個文件，譯者認為應該是 items.py）。

import scrapy

class StoreNameItem(scrapy.Item):

   name = scrapy.Field()   #  取出卡片商店的名稱

之後我們要在項目的store_name/spiders/文件夾下寫一個新的蜘蛛。蜘蛛是一個python類，它包含了下面幾個必須的屬性：

蜘蛛名 (name )
爬取起點url (start_urls)
包含了從響應中提取需要內容相應的正則表達式的解析方法。解析方法對爬蟲而言很重要。

我們在storename/spiders/目錄下創建了「storename.py」爬蟲，並添加如下的代碼來從fatwallet.com上提取店名。爬蟲的輸出寫到文件（StoreName.txt）中，見圖7。

from scrapy.selector import Selector
from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.http import FormRequest
import re
class StoreNameItem(BaseSpider):
name = "storename"
allowed_domains = ["fatwallet.com"]
start_urls = ["http://fatwallet.com/cash-back-shopping/"]

def parse(self,response):
output = open(&apos;StoreName.txt&apos;,&apos;w&apos;)
resp = Selector(response)

tags = resp.xpath(&apos;//tr[@class="storeListRow"]|
         //tr[@class="storeListRow even"]|
         //tr[@class="storeListRow even last"]|
          //tr[@class="storeListRow last"]&apos;).extract()
for i in tags:
i = i.encode(&apos;utf-8&apos;, &apos;ignore&apos;).strip()
store_name = &apos;&apos;
if re.search(r"class="storeListStoreName">.*?<",i,re.I|re.S):
store_name = re.search(r"class="storeListStoreName">.*?<",i,re.I|re.S).group()
store_name = re.search(r">.*?<",store_name,re.I|re.S).group()
store_name = re.sub(r&apos;>&apos;,"",re.sub(r&apos;<&apos;,"",store_name,re.I))
store_name = re.sub(r&apos;&&apos;,"&",re.sub(r&apos;&&apos;,"&",store_name,re.I))
#print store_name
output.write(store_name+""+"n")

Fig:7 Output of the Spider code .

圖:7 爬蟲的輸出

注意: 本教程的目的僅用於理解scrapy框架

via: http://linoxide.com/ubuntu-how-to/scrapy-install-ubuntu/

作者：nido 譯者：geekpi 校對：wxy

本文由 LCTT 原創翻譯，Linux中國榮譽推出

本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何？

太棒了

不錯

愛死了

不太好

感覺很糟

Rain

雨落清風。心向陽

如何在Ubuntu 14.04 LTS安裝網路爬蟲工具：Scrapy

使用scrapy框架提取數據

基礎教程

對這篇文章感覺如何？

如何使用 backupninja 來備份 Debian 系統

20個 Unix/Linux 命令技巧

Leave a reply 取消回復

More in:Linux中國

如何通過 VLC 使用字幕

Unix 桌面：在 Linux 問世之前

Valve 對於 Ubuntu 的 Snap 版本的 Steam 並不滿意：原因何在

Wine 9.0 發布，實驗性地加入了 Wayland 驅動

中文操作系統論壇

關注 LinuxStory

開源學村

編程類開放書籍薈萃

如何殺死 Linux 中的殭屍進程

2022年，從學習Rust開始

5本學習 TeX 的最佳免費書籍

Makefile 簡介

使用 Linux 命令行解決Wordle 問題

Linux 內核補丁提交初體驗

Linux 的前世今生 – 1

特別關注

把各種舊電腦和舊電子設備變成遊戲終端：Lakka 5.0 正式發布

NetBSD 10.0 正式發布

「Linux 中國」開源社區，停止運營

LinuxStory

加入 LinuxStory 交流群組

投票調查

最熱標籤

使用scrapy框架提取數據

基礎教程

分享

對這篇文章感覺如何？

You may also like

Leave a reply 取消回復

More in:Linux中國

中文操作系統論壇

關注 LinuxStory

開源學村

特別關注

最新文章

最熱標籤