开源快讯

雅虎宣布将其 WEB 爬虫工具 Anthelion 开源

就在今天,雅虎宣布开源了自家的网页爬虫工具 —— Anthelion

Anthelion雅虎用来爬取 HTML 中的语法结构数据的网络爬虫。然而对于雅虎来说,网络爬虫其实一直是处于非常核心的位置。其地位甚至高于雅虎的许多其他的核心应用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫无疑问,Anthelion 的开源对雅虎在 web 搜索领域的竞争力提升意义重大。

去年在上海的一次会议中,雅虎就公布了 Anthelion 的很多细节,会议中提到,Anthelion最初致力于爬取嵌入HTML网页中的语义数据。例如:microdata 、microformats 和 RDFa 等。在这次会议上同时还提到了很多关于 Anthelion 爬虫实现的技术。

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion。有兴趣的小伙伴可以下载哦!

Yahoo-billboard-Daniel-Spisak-Flickr-930x614

 

http://venturebeat.com/2015/12/14/yahoo-open-sources-anthelion-web-crawler-for-parsing-structured-data-on-html-pages/
http://top-zaymov.ru
 

 

对这篇文章感觉如何?

太棒了
0
不错
0
爱死了
0
不太好
0
感觉很糟
0

You may also like

1 Comment

  1. 期待雅虎早日重振雄风

Leave a reply

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据

More in:开源快讯

Shell

如何清除 PHP composer 的缓存或删除其文件夹

在使用 PHP Composer 进行工作时,您是否遇到了缓慢的性能问题,为了提高其效率以及管理依赖关系,请尝试清除您的项目的 Composer 缓存。 对于那些不熟悉的人,本文是关于 PHP 应用程 […]
开源快讯

开源多媒体框架FFmpeg 6.0 发布

开源多媒体框架 FFmpeg 6.0 现已发布,带来了更新和改进。 流行的开源多媒体框架 FFmpeg 6.0 现已发布。这个主要的版本现在已可下载,并在多媒体项目中使用。其亮点变化包括两个新的图像格 […]