开源快讯
雅虎宣布将其 WEB 爬虫工具 Anthelion 开源

就在今天,雅虎宣布开源了自家的网页爬虫工具 —— Anthelion。
Anthelion 是雅虎用来爬取 HTML 中的语法结构数据的网络爬虫。然而对于雅虎来说,网络爬虫其实一直是处于非常核心的位置。其地位甚至高于雅虎的许多其他的核心应用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫无疑问,Anthelion 的开源对雅虎在 web 搜索领域的竞争力提升意义重大。
去年在上海的一次会议中,雅虎就公布了 Anthelion 的很多细节,会议中提到,Anthelion最初致力于爬取嵌入HTML网页中的语义数据。例如:microdata 、microformats 和 RDFa 等。在这次会议上同时还提到了很多关于 Anthelion 爬虫实现的技术。
Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion。有兴趣的小伙伴可以下载哦!
http://venturebeat.com/2015/12/14/yahoo-open-sources-anthelion-web-crawler-for-parsing-structured-data-on-html-pages/
http://top-zaymov.ru
对这篇文章感觉如何?
太棒了
0
不错
0
爱死了
0
不太好
0
感觉很糟
0
1 Comment
Leave a reply
More in:开源快讯
【GNOME 2017 亚洲峰会闪电演讲征集】300秒,你可以做些什么?
GNOME 2017亚洲峰会征集闪电演讲,开源界老司机们,快来挑战这300秒!
weiphp——让微信开发变得简单
今天,小编要给大家安利一个免费的微信开发框架——weiphp.
Linux Mint 18 Xfce 轻量来袭
自今年 6 月 Linux Mint 18 释放后,就一直没什么动静了,直到前几日, Clement Lefebvre 宣布了 Linux Mint 18“ Xfce ...
最新 Clear Linux 不仅性能提升, 还加入了全新 Linux 内核和 Mesa 3D!
Clear Linux 的开发者宣布支持最新 GNU/Linux 技术的内核现已加入到最新的 Clear Linux 中,机器学习框架—— Caffe 性能提升10%
期待雅虎早日重振雄风