开源快讯

雅虎宣布将其 WEB 爬虫工具 Anthelion 开源

就在今天,雅虎宣布开源了自家的网页爬虫工具 —— Anthelion

Anthelion雅虎用来爬取 HTML 中的语法结构数据的网络爬虫。然而对于雅虎来说,网络爬虫其实一直是处于非常核心的位置。其地位甚至高于雅虎的许多其他的核心应用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫无疑问,Anthelion开源对雅虎在 web 搜索领域的竞争力提升意义重大。

去年在上海的一次会议中,雅虎就公布了 Anthelion 的很多细节,会议中提到,Anthelion最初致力于爬取嵌入HTML网页中的语义数据。例如:microdata 、microformats 和 RDFa 等。在这次会议上同时还提到了很多关于 Anthelion 爬虫实现的技术。

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion。有兴趣的小伙伴可以下载哦!

Yahoo-billboard-Daniel-Spisak-Flickr-930x614

 

http://venturebeat.com/2015/12/14/yahoo-open-sources-anthelion-web-crawler-for-parsing-structured-data-on-html-pages/
http://top-zaymov.ru
 

 

对这篇文章感觉如何?

太棒了
0
不错
0
爱死了
0
不太好
0
感觉很糟
0

You may also like

1 Comment

  1. 期待雅虎早日重振雄风

Leave a reply

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据

More in:开源快讯

开源快讯

树莓派5 于十月底发布

树莓派 5 的价格为 4GB 版本为 60 美元,8GB 版本为 80 美元。 树莓派基金会今天宣布了备受期待的树莓派 5 单板计算机的发布,该计算机将于 2023 年 ...
开源快讯

Kubernetes vs Docker:探索容器化的协同效应

容器化介绍 容器化是一项革命性的技术,允许软件以一致的方式打包和部署到各种环境中。它通过将应用程序和其依赖项封装在轻量级、可移植的容器中,解决了依赖冲突和平台差异等挑战。在本文中,我们将探讨容器化领域 […]