Linux中國

什麼是網路爬蟲?網路爬蟲如何工作?

作為一個狂熱的互聯網人,你在生活中一定遇到過 網路爬蟲 Web Crawler 這個詞。那麼什麼是網路爬蟲,誰使用網路爬蟲?它是如何工作的?讓我們在本文中討論這些。

什麼是網路爬蟲?

web crawler source code sync

網路爬蟲 Web Crawler 也被稱為 網路蜘蛛 web-spider 是一個在互聯網中訪問不同網站的各個頁面的互聯網軟體或者機器人。網路爬蟲從這些網頁中檢索各種信息並將其存儲在其記錄中。這些抓取工具主要用於從網站收集內容以改善搜索引擎的搜索。

誰使用網路爬蟲?

大多數搜索引擎使用爬蟲來收集來自公共網站的越來越多的內容,以便它們可以向用戶提供更多相關內容。

search engines use web crawlers

許多商業機構使用網路爬蟲專門搜索人們的電子郵件地址和電話號碼,以便他們可以向你發送促銷優惠和其他方案。這基本上是垃圾郵件,但這是大多數公司創建郵件列表的方式。

黑客使用網路爬蟲來查找網站文件夾中的所有文件,主要是 HTML 和 Javascript。然後他們嘗試通過使用 XSS 來攻擊網站。

網路爬蟲如何工作?

網路爬蟲是一個自動化腳本,它所有行為都是預定義的。爬蟲首先從要訪問的 URL 的初始列表開始,這些 URL 稱為種子。然後它從初始的種子頁面確定所有其他頁面的超鏈接。網路爬蟲然後將這些網頁以 HTML 文檔的形式保存,這些 HTML 文檔稍後由搜索引擎處理並創建一個索引。

網路爬蟲和 SEO

網路爬蟲對 SEO,也就是 搜索引擎優化 Search Engine Optimization 有很大的影響。由於許多用戶使用 Google,讓 Google 爬蟲為你的大部分網站建立索引非常重要。這可以通過許多方式來完成,包括不使用重複的內容,並在其他網站上具有儘可能多的反向鏈接。許多網站被認為是濫用這些技巧,最終被引擎列入黑名單。

robots.txt

robots.txt 是爬蟲在抓取你的網站時尋找的一種非常特殊的文件。該文件通常包含有關如何抓取你的網站的信息。一些網站管理員故意不希望他們的網站被索引也可以通過使用 robots.txt 文件阻止爬蟲。

總結

爬蟲是一個小的軟體機器人,可以用來瀏覽很多網站,並幫助搜索引擎從網上獲得最相關的數據。

via: http://www.theitstuff.com/web-crawler-web-crawlers-work

作者:Rishabh Kandari 譯者:geekpi 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的郵箱地址不會被公開。 必填項已用 * 標註

    這個站點使用 Akismet 來減少垃圾評論。了解你的評論數據如何被處理

    More in:Linux中國

    Linux中國

    關於Linux防火牆iptables的面試問答

    Nishita Agarwal是Tecmint的用戶,她將分享關於她剛剛經歷的一家公司(印度的一家私人公司Pune)的面試經驗。在面試中她被問及許多不同的問題,但她是iptables方面的專家,因此她想分享這些關於iptables的問題和相應的答案給那些以後可能會進行相關面試的人。 所有的問題和相應的答案都基於Nishita Agarwal的記憶並經過了重寫。 嗨,朋友!我叫Nishita Agarwal。我已經取得了理學學士學位,我的專業集中在UNIX和它的變種(BSD,Linux)。它們一直深深的吸引著我。我在存儲方面有1年多的經驗。我正在尋求職業上的變化,並將供職於印度的P
    Linux中國

    Lets Encrypt 已被所有主流瀏覽器所信任

    旨在讓每個網站都能使用 HTTPS 加密的非贏利組織 Lets Encrypt 已經得了 IdenTrust的交叉簽名,這意味著其證書現在已經可以被所有主流的瀏覽器所信任。從這個裡程碑事件開始,訪問者訪問使用了Lets Encrypt 證書的網站不再需要特別配置就可以得到 HTTPS 安全保護了。 Lets Encrypt 的兩個中級證書 ...
    Linux中國

    SSL/TLS 加密新紀元 – Lets Encrypt

    根據 Let's Encrypt 官方博客消息,Let's Encrypt 服務將在下周(11 月 16 日)正式對外開放。 Let's Encrypt 項目是由互聯網安全研究小組(ISRG,Internet Security Research Group)主導並開發的一個新型數字證書認證機構(CA,Certificate ...