Linux中國

使用開源搜索引擎 YaCy 的技巧

在我以前介紹 YaCy 入門的文章中講述過 YaCy 這個 對等 peer-to-peer 式的搜索引擎是如何安裝和使用的。YaCy 最令人興奮的一點就是它事實上是一個本地客戶端,全球範圍內的每一個 YaCy 用戶都是構成整個這個分散式搜索引擎架構的一個節點,這意味著每個用戶都可以掌控自己的互聯網搜索體驗。

Google 曾經提供過 google.com/linux 這樣的主題簡便方式以便快速篩選出和 Linux 相關的搜索內容,這個小功能受到了很多人的青睞,但 Google 最終還是在 2011 年的時候把它下線了。

YaCy 則讓自定義搜索引擎變得可能。

自定義 YaCy

YaCy 安裝好之後,只需要訪問 localhost:8090 就可以使用了。要自定義搜索引擎,只需要點擊右上角的「 管理 Administration 」按鈕(它可能隱藏在小屏幕的菜單圖標中)。

你可以在管理面板中配置 YaCy 對系統資源的使用策略,以及如何跟其它的 YaCy 客戶端進行交互。

![YaCy profile selector](/data/attachment/album/202002/23/115843ppvphwozdb11zvv1.jpg "YaCy profile selector")

例如,點擊側欄中的「 第一步 First steps 」按鈕可以配置備用埠,以及設置 YaCy 對內存和硬碟的使用量;而「 監控 Monitoring 」面板則可以監控 YaCy 的運行狀況。大多數功能都只需要在面板上點擊幾下就可以完成了,例如以下幾個常用的功能。

內網搜索應用

目前市面上也有不少公司推出了內網搜索應用,而 YaCy 可以免費為你提供一個。對於能夠通過 HTTP、FTP、Samba 等協議訪問的文件,YaCy 都可以進行索引,因此無論是作為私人的文件搜索還是企業內部的本地共享文件搜索,YaCy 都可以實現。它可以讓內部網路中的用戶使用你個人的 YaCy 實例來查找共享文件,於此同時保持對內部網路以外的用戶不可見。

網路配置

YaCy 在默認情況下就支持隱私和隔離。點擊「 用例與賬號 Use Case & Account 」頁面頂部的「 網路配置 Network Configuration 」鏈接,即可進入網路配置面板設置對等網路。

![YaCy network configuration](/data/attachment/album/202002/23/115854v7rxvgzej0k4he4e.jpg "YaCy network configuration")

爬取站點

YaCy 的分散式運作方式決定了它對頁面的爬取是由用戶驅動的。並沒有一個大型公司對整個互聯網上的所有可訪問頁面都進行搜索,對於 YaCy 來說也是這樣,一個站點只有在被用戶指定爬取的前提下,才會被 YaCy 爬取並進入索引。

YaCy 客戶端提供了兩種爬取頁面的方式:你可以手動爬取,並讓 YaCy 根據建議去爬取。

![YaCy advanced crawler](/data/attachment/album/202002/23/115856x1fvsi41tsuhi359.jpg "YaCy advanced crawler")

手動爬取

手動爬取是指由用戶輸入指定的網站 URL 並啟動 YaCy 的爬蟲任務。只需要點擊「 高級爬蟲 Advanced Crawler 」並輸入計劃爬取的若干 URL,然後選擇頁面底部的「 進行遠程索引 Do Remote indexing 」選項,這個選項會讓客戶端向互聯網廣播它要索引的 URL,可選地接受這些請求的客戶端可以幫助你爬取這些 URL。

點擊頁面底部的「 開始新爬蟲任務 Start New Crawl Job 」按鈕就可以開始進行爬取了,我就是這樣對一些常用和有用站點進行爬取和索引的。

爬蟲任務啟動之後,YaCy 會將這些 URL 對應的頁面在本地生成和存儲索引。在高級模式下,也就是本地計算機允許 8090 埠流量進出時,全網的 YaCy 用戶都可以使用到這一份索引。

加入爬蟲網路

儘管一些非常敬業的 YaCy 高級用戶已經強迫症般地在互聯網上爬取了很多頁面,但對於全網浩如煙海的頁面而言也只是滄海一粟。單個用戶所擁有的資源遠不及很多大公司的網路爬蟲,但大量 YaCy 用戶如果聯合起來成為一個社區,能產生的力量就大得多了。只要開啟了 YaCy 的爬蟲請求廣播功能,就可以讓其它客戶端參與進來爬取更多頁面。

只需要在「 高級爬蟲 Advanced Crawler 」面板中點擊頁面頂部的「 遠程爬取 Remote Crawling 」,勾選「 載入 Load 」旁邊的複選框,就可以讓你的客戶端接受其它人發來的爬蟲任務請求了。

![YaCy remote crawling](/data/attachment/album/202002/23/115858kr2x1r26dcz00cqd.jpg "YaCy remote crawling")

YaCy 監控相關

YaCy 除了作為一個非常強大的搜索引擎,還提供了很豐富的主題和用戶體驗。你可以在「 監控 Monitor 」面板中監控 YaCy 客戶端的網路運行狀況,甚至還可以了解到有多少人從 YaCy 社區中獲取到了自己所需要的東西。

![YaCy monitoring screen](/data/attachment/album/202002/23/115906e43k78yoq34ixmoi.jpg "YaCy monitoring screen")

搜索引擎發揮了作用

你使用 YaCy 的時間越長,就越會思考搜索引擎如何改變自己的視野,因為你對互聯網的體驗很大一部分來自於你在搜索引擎中一次次簡單查詢的結果。實際上,當你和不同行業的人交流時,可能會注意到每個人對「互聯網」的理解都有所不同。有些人會認為,互聯網的搜索引擎中充斥著各種廣告和推廣,同時也僅僅能從搜索結果中獲取到有限的信息。例如,假設有人不斷搜索關於關鍵詞 X 的內容,那麼大部分商業搜索引擎都會在搜索結果中提高關鍵詞 X 的權重,但與此同時,另一個關鍵詞 Y 的權重則會相對降低,從而讓關鍵詞 Y 被淹沒在搜索結果當中,即使這樣對完成特定任務更好。

就像在現實生活中一樣,走出虛擬的世界視野會讓你看到一個更廣闊的世界。嘗試使用 YaCy,看看你發現了什麼。

via: https://opensource.com/article/20/2/yacy-search-engine-hacks

作者:Seth Kenlon 選題:lujun9972 譯者:HankChow 校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出


本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0
雨落清風。心向陽

    You may also like

    Leave a reply

    您的郵箱地址不會被公開。 必填項已用 * 標註

    此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

    More in:Linux中國