開源快訊

雅虎宣布將其 WEB 爬蟲工具 Anthelion 開源

就在今天,雅虎宣布開源了自家的網頁爬蟲工具 —— Anthelion

Anthelion雅虎用來爬取 HTML 中的語法結構數據的網路爬蟲。然而對於雅虎來說,網路爬蟲其實一直是處於非常核心的位置。其地位甚至高於雅虎的許多其他的核心應用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫無疑問,Anthelion開源對雅虎在 web 搜索領域的競爭力提升意義重大。

去年在上海的一次會議中,雅虎就公布了 Anthelion 的很多細節,會議中提到,Anthelion最初致力於爬取嵌入HTML網頁中的語義數據。例如:microdata 、microformats 和 RDFa 等。在這次會議上同時還提到了很多關於 Anthelion 爬蟲實現的技術。

Anthelion 的代碼現在以 Apache 開源授權協議託管到 GitHub:https://github.com/yahoo/anthelion。有興趣的小夥伴可以下載哦!

Yahoo-billboard-Daniel-Spisak-Flickr-930x614

 

http://venturebeat.com/2015/12/14/yahoo-open-sources-anthelion-web-crawler-for-parsing-structured-data-on-html-pages/
http://top-zaymov.ru
 

 

對這篇文章感覺如何?

太棒了
0
不錯
0
愛死了
0
不太好
0
感覺很糟
0

You may also like

1 Comment

  1. 期待雅虎早日重振雄風

Leave a reply

您的電子郵箱地址不會被公開。 必填項已用 * 標註

此站點使用Akismet來減少垃圾評論。了解我們如何處理您的評論數據

More in:開源快訊

Shell

如何清除 PHP composer 的緩存或刪除其文件夾

在使用 PHP Composer 進行工作時,您是否遇到了緩慢的性能問題,為了提高其效率以及管理依賴關係,請嘗試清除您的項目的 Composer 緩存。 對於那些不熟悉的人,本文是關於 PHP 應用程 […]
開源快訊

開源多媒體框架FFmpeg 6.0 發布

開源多媒體框架 FFmpeg 6.0 現已發布,帶來了更新和改進。 流行的開源多媒體框架 FFmpeg 6.0 現已發布。這個主要的版本現在已可下載,並在多媒體項目中使用。其亮點變化包括兩個新的圖像格 […]