`
xtuhcy
  • 浏览: 139282 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Gecco框架典型案例—闲逛APP

阅读更多

Gecco开源爬虫框架是2015年12月31日发布的,发布以来在易用性、可扩展性上得到了大家的肯定。目前在github上已经有230+的star,100+的fork。那么,Gecco这个新的爬虫框架在实际应用中的表现如何呢?为了让用户放心使用Gecco框架,Gecco团队发布了一款使用Gecco爬虫框架开发的APP——闲逛。这款应用更多的是用来验证Gecco框架的易用性、稳定性、可扩展性。任何脱离实际应用的框架都是耍流氓。

闲逛应用抓取了京东、苏宁易购、天猫、什么值得买等10多个主流电商和导购平台,经过数据清洗和聚合实现了如下功能:

  • 【历史新低】实时获取电商价格动态,历史新低谁买谁赚
  • 【值得买】全网什么值得买信息全收录
  • 【9.9包邮】天猫9.9包邮实时更新
  • 【优惠券】收集全网优惠券信息

闲逛应用的爬虫部分主要使用了Gecco的核心和Gecco-Spring的扩展框架,由于规模还不大,并没有使用Gecco-Redis分布式爬虫,由于考虑到效率问题也没有使用Gecco-HtmlUnit扩展框架。下一步引入更多电商网站的抓取后将会使用Gecco-Redis扩展框架进行分布式抓取,以验证Gecco-Redis的可靠性。

闲逛应用的爬虫部分已经做了7*24小时的稳定性测试,今后,Gecco的升级都会先在闲逛应用上做好测试后再进行版本的发布。

APP目前只有Android客户端。可以通过点击这里下载,也能通过扫描下面的二维码进行下载,有兴趣的朋友可以安装使用。 闲逛

1
1
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics