`
xtuhcy
  • 浏览: 138927 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

gecco 1.1.0稳定版发布,易用的轻量化爬虫

阅读更多

gecco 1.1.0稳定版发布了

1.1.0版本主要做了如下修改:

1.优化代理设置,运行时计算代理下载成功率,自动发现无效代理,支持运行时添加代理
2.HttpClientDownloader支持类似12306网站非信任ssl证书
3.JsonBean支持嵌套解析
4.修复部分网站302无法跳转的bug
5.优化debug日志输出

 

gecco是一款易用的轻量化网络爬虫。十分的容易上手。

 

主要特征:

  1. 简单易用,使用jquery风格的选择器抽取元素
    2.支持页面中的异步ajax请求
    3.支持页面中的javascript变量抽取
    4.利用Redis实现分布式抓取,参考gecco-redis
    5.支持结合Spring开发业务逻辑,参考gecco-spring
    6.支持htmlunit扩展,参考gecco-htmlunit
    7.支持插件扩展机制
    8.支持下载时UserAgent随机选取
    9.支持下载代理服务器随机选取

0
7
分享到:
评论
1 楼 nwater 2016-07-14  
楼主,我在使用gecco核心库开发时,出现下面的错误,请问这种问题是由什么原因引起的?

[Spider-0] DEBUG org.apache.http.impl.conn.PoolingHttpClientConnectionManager - Connection released: [id: 0][route: {s}->https://movie.douban.com:443][total kept alive: 0; route allocated: 0 of 50; total allocated: 0 of 1000]
[Spider-0] ERROR com.geccocrawler.gecco.spider.Spider - com.geccocrawler.gecco.spider.render.RenderException: null
[Spider-0] ERROR com.geccocrawler.gecco.spider.Spider - https://xxxxxxxxxxxx RENDER ERROR : com.banku.crawler.movie.MovieList
[main] DEBUG org.apache.http.impl.conn.PoolingHttpClientConnectionManager - Connection manager is shutting down


部分代码
@Gecco(matchUrl = "https://xxxxxxx.com/tag/{tag}?start={page}&type=T", pipelines = "consolePipeline")
public class MovieList implements HtmlBean {

	/**
	 * 
	 */
	private static final long serialVersionUID = 8487778806984376953L;

	@Request
	private HttpRequest request;

	@RequestParameter("page")
	private String page;
}

相关推荐

    Android Studio V1.1.0稳定版

    Android Studio 1.1.0 稳定版 2015年02月更新

    duxcms网站内容管理系统v1.1.0稳定版

    运行环境 操作系统:windows/linux/macosx 服务器环境:apache2.X/IIS5 /NGNIX(需要开启INFO模式支持) PHP版本:5.2/5.3 MYSQL版本:5.1及以上 程序特点 1、小巧易用,程序压缩后大小只有1M左右,虽小功能却不简单...

    duxcms内容管理系统 v1.1.0 稳定版.rar

    8、开源免费,源码完全无加密开发,免去了您的后顾之忧,程序可免费无限制使用,但是禁止包皮发布。 运行环境: 操作系统:windows/linux/macosx服务器环境:apache2.X/IIS5 /NGNIX(需要开启INFO模式支持)PHP版本...

    RuoYi v1.1.0基于UniApp开发的轻量级移动端框架

    RuoYi APP 移动端框架,基于uniapp+uniui封装的一套基础模版,支持H5、APP、微信小程序、支付宝小程序等,实现了与RuoYi-Vue、RuoYi-Cloud后台完美对接。

    Shang Blog v1.1.0 编译版.rar

    Shang Blog 1.1.0 Final 版发布,这次对长久以来未更新的Shang Blog 1.0 做出了一些更新和细微的变化 1、Shang Blog的更新现在是基于Shangducms Framework的了,相对于以前来说,结构更好,更容易维护 2、Shang Blog...

    朗图吓数1.1.0免费版

    一款免费的毛衣吓数工艺软件,对初学着帮助很大

    安卓元气壁纸v1.1.0纯净版.txt打包整理.zip

    安卓元气壁纸v1.1.0纯净版.txt打包整理.zip

    Mac Photolemur_3_v1.1.0中文版.dmg

    支持RAW、JPEG、TIFF或PNG等格式,采用简单易用的拖拽操作,可以在人工智能的帮助下自动生成所有图像,号称是“世界上第一款完全自动化的照片升级程序”。Photolemur 3操作简单,你只需要导入照片即可,所有的工作都...

    PHP轻量级框架(YPHP) v1.1.0

    YPHP轻量级框架Bug修复 ( YPHP轻量级PHP框架版本更新至 V 1.1.0 ) 一、已解决实例化模块时,用户不能手动指定默认执行的类和默认执行的方法! 二、已解决类或方法不存在,导致系统实例化出错问题! 三、已解决...

    github atom1.1.0(windows版)

    github出品的开发工具atom,最新1.1.0的windows版本,可用于开发go等。

    seata-server 1.1.0 0.0.9 1.0.0 版本下载

    由于github实在太慢 找遍csdn又太贵 下载完后就分享了 seata-server-1.1.0 1.0.0 0.0.9版本 3个版本 现在最新是1.1.0 本人要集成的是consul 还没折腾完 只用了0.0.8的

    RT-Thread 1.1.0正式版

    它不仅仅是一款高效、稳定的实时核心,也是一套面向嵌入式系统的软件平台,覆盖了全抢占的实时操作系统内核,小巧而与底层具体实现无关的文件系统,轻型的TCP/IP协议栈以及轻型的多窗口多线程图形用户界面。

    PHP轻量级框架(YPHP) v1.1.0.rar

    YPHP轻量级框架Bug修复 ( YPHP轻量级PHP框架版本更新至 V 1.1.0 ) 一、已解决实例化模块时,用户不能手动指定默认执行的类和默认执行的方法! 二、已解决类或方法不存在,导致系统实例化出错问题! 三、已解决...

    rebel android studio 1.1.0 破解版 注册

    1. 解压jrebel-for-android_1.1.0_act.zip中jrebel-android.lic 和 jrebel-for-android_1.1.0_mark.zip 2. Android Studio -> Plugins -> Install plugin from disk 安装jrebel-for-android_1.1.0_mark.zip 3. ...

    海报模板 海报生成中心v1.1.0营销版源码

    海报模板 海报生成中心v1.1.0营销版

    tinyos(1.1.0版本)安装教程

    1.1.0版本的TinyOS安装教程 很实用

    lyadmin轻量级通用后台 1.1.0

    lyadmin是一套轻量级通用后台,采用Bootstrap3制作,自带权限管理,模块化开发。 lyadmin 1.1.0 更新日志:2016-12-13 1、支持插件行为扩展和标签库 2、支持默认模块功能 3、优化系统配置 4、完善前台公共控制器 5...

    SimpleMySQLAssistPlugin1.1.0版本修正版.zip

    SimpleMySQLAssistPlugin1.1.0版本修正版.zip ue4操作mysql 插件操作教程在我博客首页

    Rope轻量级ETL工具 v1.1.0.zip

    Rope轻量级ETL工具 v1.1.0.zip

    jadx-gui-1.1.0 20200810 版本

    jadx-gui是一款反编译Java代码,Android apk的神器,这是20200810的最新版本。

Global site tag (gtag.js) - Google Analytics