站长下载:中国新一代站长门户网!

站长论坛最近更新热门排行软件提交
当前位置:首页 > 源码下载 > JSP源码 > 其他源码 - SeimiCrawler(Java爬虫框架)v1.3.0
SeimiCrawler(Java爬虫框架)v1.3.0
0
0

SeimiCrawler(Java爬虫框架)v1.3.0

  • 源码介绍
 SeimiCrawler(Java 爬虫框架)更新

支持在Request对象中,通过header(map)来自定义本次请求的header,以及支持通过seimiCookies来自定义cookies,自定义cookies会直接进入cookiesStore,对同域下第二次请求依然有效

优化默认启动方式,改造cn.wanghaomiao.seimi.boot.Run支持CommandLineParser,可以使用 -c 和-p来传参,其中-c用来指定crawlernames,多个用','分隔,-p指定一个端口,可以选择性的启动一个内嵌的http服务,并开启使用内嵌http接口

maven-compiler-plugin打包插件升级为1.3.0,完善Linux下的脚本,并增加启动配置文件,可以到maven-compiler-plugin主页详细查看

默认下载器改为Apache Httpclient,备用为下载器OkHttp3实现

优化部分代码

demo日志默认全部输出至控制台

SeimiCrawler(Java 爬虫框架)简介

SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。

SeimiCrawler(Java 爬虫框架)展示

 

谢谢您关注Downzz.com站长常用源码源码下载网

文章评论 站长交流QQ群:①77270208

请自觉遵守互联网相关政策法规,评论内容只代表网友观点,与本站立场无关!
网友评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

关于站长下载 | 联系方式 | 发展历程 | 版权声明 | 下载帮助(?) | 广告联系 | 网站地图 | 友情链接

Copyright 2005-2019 Downzz.Com 【站长下载】 版权所有 浙ICP备17005543号 | 浙公网安备 42011102000245号

声明: 本站部分内容属于原创转载请注明出处 如有侵权行为请严格参照本站【版权声明】与我们联系,我们将在48小时内容进行处理!