工作中需要用到UEditor编辑文本,在与springMVC进行整合时,出现了一些问题,结果导致,在进行图片上传时出现如下提示:上网查询了很多相关资料,此处简要记录下,防止以后遇到类似问题。 一种方式是直接修改源码,步骤如下: 1、编写controller 如下(该接口是ueditor前后台交互的 ...
神箭手云爬虫
分为: 入口页,帮助页,内容页
入口页: scanUrl 爬虫网页的入口
帮助页:helperurl 一帮包含大量的内容页(列表),多数情况下事业个内容列表,也叫列表页
contentUrl队列:此队列中存放内容页类型的链接,自动链接发现以及site.addUrl的时候,通过正则表达式来判断链接类型,如果是内容页,则将会加到此链接中
普通队列:一般存放的都是帮助页类型的链接,自动链接发现以及site.addUrl 的时候,通过正则表达式来判断链接类型,如果不是内容页,将会加到此队列中
失败队列:一种特殊的队列,用来存放处理失败的链接。
链接调度
一次调度一个链接:默认情况下
contentUrl队列>普通队列>scanUrl队列
当configs.entriesFirst为true时,调度优先级为:
scanUrl队列>contentUrl队列>普通队列
在链接调度过程中,如果遇到了处理失败的情况: 首先会触发链接的重试(此链接会被重新加载到队列中),当重试次数(入口页:5次;帮助页:3次;内容页2次)仍然失败时,此链接就会被放到失败链接,当其他所有队列都为空时,失败队列里面的链接再重试一次,这些链接重试完成后,爬虫结束。
链接去重
网站之中链接存在循环,爬虫在爬去的过程中,如果不做控制,很容易陷入死循环。
比较好的方式就是对已经处理过的链接做标记,进行去重处理,(因为大部分处理过的链接不需要再处理一次,另一方面避免爬虫进入死循环)
对于GET类型的请求:平台使用链接本身去重,但是!!!!平台不会对#做处理,