使用開源搜索引擎 YaCy 的技巧

在我以前介紹 YaCy 入門的文章中講述過 YaCy 這個 對等 式的搜索引擎是如何安裝和使用的。YaCy 最令人興奮的一點就是它事實上是一個本地客戶端,全球範圍內的每一個 YaCy 用戶都是構成整個這個分散式搜索引擎架構的一個節點,這意味著每個用戶都可以掌控自己的互聯網搜索體驗。
Google 曾經提供過 google.com/linux 這樣的主題簡便方式以便快速篩選出和 Linux 相關的搜索內容,這個小功能受到了很多人的青睞,但 Google 最終還是在 2011 年的時候把它下線了。
而 YaCy 則讓自定義搜索引擎變得可能。
自定義 YaCy
YaCy 安裝好之後,只需要訪問 localhost:8090
就可以使用了。要自定義搜索引擎,只需要點擊右上角的「 管理 」按鈕(它可能隱藏在小屏幕的菜單圖標中)。
你可以在管理面板中配置 YaCy 對系統資源的使用策略,以及如何跟其它的 YaCy 客戶端進行交互。

例如,點擊側欄中的「 第一步 」按鈕可以配置備用埠,以及設置 YaCy 對內存和硬碟的使用量;而「 監控 」面板則可以監控 YaCy 的運行狀況。大多數功能都只需要在面板上點擊幾下就可以完成了,例如以下幾個常用的功能。
內網搜索應用
目前市面上也有不少公司推出了內網搜索應用,而 YaCy 可以免費為你提供一個。對於能夠通過 HTTP、FTP、Samba 等協議訪問的文件,YaCy 都可以進行索引,因此無論是作為私人的文件搜索還是企業內部的本地共享文件搜索,YaCy 都可以實現。它可以讓內部網路中的用戶使用你個人的 YaCy 實例來查找共享文件,於此同時保持對內部網路以外的用戶不可見。
網路配置
YaCy 在默認情況下就支持隱私和隔離。點擊「 用例與賬號 」頁面頂部的「 網路配置 」鏈接,即可進入網路配置面板設置對等網路。

爬取站點
YaCy 的分散式運作方式決定了它對頁面的爬取是由用戶驅動的。並沒有一個大型公司對整個互聯網上的所有可訪問頁面都進行搜索,對於 YaCy 來說也是這樣,一個站點只有在被用戶指定爬取的前提下,才會被 YaCy 爬取並進入索引。
YaCy 客戶端提供了兩種爬取頁面的方式:你可以手動爬取,並讓 YaCy 根據建議去爬取。

手動爬取
手動爬取是指由用戶輸入指定的網站 URL 並啟動 YaCy 的爬蟲任務。只需要點擊「 高級爬蟲 」並輸入計劃爬取的若干 URL,然後選擇頁面底部的「 進行遠程索引 」選項,這個選項會讓客戶端向互聯網廣播它要索引的 URL,可選地接受這些請求的客戶端可以幫助你爬取這些 URL。
點擊頁面底部的「 開始新爬蟲任務 」按鈕就可以開始進行爬取了,我就是這樣對一些常用和有用站點進行爬取和索引的。
爬蟲任務啟動之後,YaCy 會將這些 URL 對應的頁面在本地生成和存儲索引。在高級模式下,也就是本地計算機允許 8090 埠流量進出時,全網的 YaCy 用戶都可以使用到這一份索引。
加入爬蟲網路
儘管一些非常敬業的 YaCy 高級用戶已經強迫症般地在互聯網上爬取了很多頁面,但對於全網浩如煙海的頁面而言也只是滄海一粟。單個用戶所擁有的資源遠不及很多大公司的網路爬蟲,但大量 YaCy 用戶如果聯合起來成為一個社區,能產生的力量就大得多了。只要開啟了 YaCy 的爬蟲請求廣播功能,就可以讓其它客戶端參與進來爬取更多頁面。
只需要在「 高級爬蟲 」面板中點擊頁面頂部的「 遠程爬取 」,勾選「 載入 」旁邊的複選框,就可以讓你的客戶端接受其它人發來的爬蟲任務請求了。

YaCy 監控相關
YaCy 除了作為一個非常強大的搜索引擎,還提供了很豐富的主題和用戶體驗。你可以在「 監控 」面板中監控 YaCy 客戶端的網路運行狀況,甚至還可以了解到有多少人從 YaCy 社區中獲取到了自己所需要的東西。

搜索引擎發揮了作用
你使用 YaCy 的時間越長,就越會思考搜索引擎如何改變自己的視野,因為你對互聯網的體驗很大一部分來自於你在搜索引擎中一次次簡單查詢的結果。實際上,當你和不同行業的人交流時,可能會注意到每個人對「互聯網」的理解都有所不同。有些人會認為,互聯網的搜索引擎中充斥著各種廣告和推廣,同時也僅僅能從搜索結果中獲取到有限的信息。例如,假設有人不斷搜索關於關鍵詞 X 的內容,那麼大部分商業搜索引擎都會在搜索結果中提高關鍵詞 X 的權重,但與此同時,另一個關鍵詞 Y 的權重則會相對降低,從而讓關鍵詞 Y 被淹沒在搜索結果當中,即使這樣對完成特定任務更好。
就像在現實生活中一樣,走出虛擬的世界視野會讓你看到一個更廣闊的世界。嘗試使用 YaCy,看看你發現了什麼。
via: https://opensource.com/article/20/2/yacy-search-engine-hacks
作者:Seth Kenlon 選題:lujun9972 譯者:HankChow 校對:wxy
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive