開源快訊

雅虎宣布將其 WEB 爬蟲工具 Anthelion 開源

就在今天,雅虎宣布開源了自家的網頁爬蟲工具 —— Anthelion

Anthelion雅虎用來爬取 HTML 中的語法結構數據的網路爬蟲。然而對於雅虎來說,網路爬蟲其實一直是處於非常核心的位置。其地位甚至高於雅虎的許多其他的核心應用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫無疑問,Anthelion開源對雅虎在 web 搜索領域的競爭力提升意義重大。

去年在上海的一次會議中,雅虎就公布了 Anthelion 的很多細節,會議中提到,Anthelion最初致力於爬取嵌入HTML網頁中的語義數據。例如:microdata 、microformats 和 RDFa 等。在這次會議上同時還提到了很多關於 Anthelion 爬蟲實現的技術。

Anthelion 的代碼現在以 Apache 開源授權協議託管到 GitHub:https://github.com/yahoo/anthelion。有興趣的小夥伴可以下載哦!

Yahoo-billboard-Daniel-Spisak-Flickr-930x614

 

http://venturebeat.com/2015/12/14/yahoo-open-sources-anthelion-web-crawler-for-parsing-structured-data-on-html-pages/
http://top-zaymov.ru
 

 

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0

You may also like

1 Comment

  1. 期待雅虎早日重振雄風

Leave a reply

您的電子郵箱地址不會被公開。 必填項已用 * 標註

此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

More in:開源快訊

開源快訊

樹莓派5 於十月底發布

樹莓派 5 的價格為 4GB 版本為 60 美元,8GB 版本為 80 美元。 樹莓派基金會今天宣布了備受期待的樹莓派 5 單板計算機的發布,該計算機將於 2023 年 ...
開源快訊

Kubernetes vs Docker:探索容器化的協同效應

容器化介紹 容器化是一項革命性的技術,允許軟體以一致的方式打包和部署到各種環境中。它通過將應用程序和其依賴項封裝在輕量級、可移植的容器中,解決了依賴衝突和平台差異等挑戰。在本文中,我們將探討容器化領域 […]