什麼是網路爬蟲?網路爬蟲如何工作?
作為一個狂熱的互聯網人,你在生活中一定遇到過 網路爬蟲 這個詞。那麼什麼是網路爬蟲,誰使用網路爬蟲?它是如何工作的?讓我們在本文中討論這些。
什麼是網路爬蟲?
網路爬蟲 也被稱為 網路蜘蛛 是一個在互聯網中訪問不同網站的各個頁面的互聯網軟體或者機器人。網路爬蟲從這些網頁中檢索各種信息並將其存儲在其記錄中。這些抓取工具主要用於從網站收集內容以改善搜索引擎的搜索。
誰使用網路爬蟲?
大多數搜索引擎使用爬蟲來收集來自公共網站的越來越多的內容,以便它們可以向用戶提供更多相關內容。
許多商業機構使用網路爬蟲專門搜索人們的電子郵件地址和電話號碼,以便他們可以向你發送促銷優惠和其他方案。這基本上是垃圾郵件,但這是大多數公司創建郵件列表的方式。
黑客使用網路爬蟲來查找網站文件夾中的所有文件,主要是 HTML 和 Javascript。然後他們嘗試通過使用 XSS 來攻擊網站。
網路爬蟲如何工作?
網路爬蟲是一個自動化腳本,它所有行為都是預定義的。爬蟲首先從要訪問的 URL 的初始列表開始,這些 URL 稱為種子。然後它從初始的種子頁面確定所有其他頁面的超鏈接。網路爬蟲然後將這些網頁以 HTML 文檔的形式保存,這些 HTML 文檔稍後由搜索引擎處理並創建一個索引。
網路爬蟲和 SEO
網路爬蟲對 SEO,也就是 搜索引擎優化 有很大的影響。由於許多用戶使用 Google,讓 Google 爬蟲為你的大部分網站建立索引非常重要。這可以通過許多方式來完成,包括不使用重複的內容,並在其他網站上具有儘可能多的反向鏈接。許多網站被認為是濫用這些技巧,最終被引擎列入黑名單。
robots.txt
robots.txt
是爬蟲在抓取你的網站時尋找的一種非常特殊的文件。該文件通常包含有關如何抓取你的網站的信息。一些網站管理員故意不希望他們的網站被索引也可以通過使用 robots.txt
文件阻止爬蟲。
總結
爬蟲是一個小的軟體機器人,可以用來瀏覽很多網站,並幫助搜索引擎從網上獲得最相關的數據。
via: http://www.theitstuff.com/web-crawler-web-crawlers-work
作者:Rishabh Kandari 譯者:geekpi 校對:wxy
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive