小鑫

小鑫的技术专栏


  • 首页

  • 关于

  • 标签

  • 分类

  • 时间轴

  • 日程表

  • 站点地图

  • 公益404

  • 搜索

spring mvc对接ueditor富文本编辑器

发表于 2019-06-10 | 分类于 java | Views:

工作中需要用到UEditor编辑文本,在与springMVC进行整合时,出现了一些问题,结果导致,在进行图片上传时出现如下提示:上网查询了很多相关资料,此处简要记录下,防止以后遇到类似问题。 一种方式是直接修改源码,步骤如下: 1、编写controller 如下(该接口是ueditor前后台交互的 ...

阅读全文 »

文件批量重命名

发表于 2019-06-06 | Edited on 2019-06-10 | 分类于 工具 | Views:

文件批量重命名 进入需要重命名的文件夹内,新建一个.txt文件,内容为 dir *.jpg /b>ren.bat(假如你要重命名的是图片的话,只需要将jpg改为其他名称既可。)再改后缀名为.bat双击运行。 用记事本打开ren.bat文件复制文件里面的内容,打开excel,右击单元格A2,选择 ...

阅读全文 »

神箭手云爬虫

发表于 2019-06-06 | 分类于 神箭手 | Views:

分为: 入口页,帮助页,内容页

入口页: scanUrl 爬虫网页的入口

帮助页:helperurl 一帮包含大量的内容页(列表),多数情况下事业个内容列表,也叫列表页
contentUrl队列:此队列中存放内容页类型的链接,自动链接发现以及site.addUrl的时候,通过正则表达式来判断链接类型,如果是内容页,则将会加到此链接中

普通队列:一般存放的都是帮助页类型的链接,自动链接发现以及site.addUrl 的时候,通过正则表达式来判断链接类型,如果不是内容页,将会加到此队列中

失败队列:一种特殊的队列,用来存放处理失败的链接。

链接调度

一次调度一个链接:默认情况下
contentUrl队列>普通队列>scanUrl队列

当configs.entriesFirst为true时,调度优先级为:
scanUrl队列>contentUrl队列>普通队列

在链接调度过程中,如果遇到了处理失败的情况: 首先会触发链接的重试(此链接会被重新加载到队列中),当重试次数(入口页:5次;帮助页:3次;内容页2次)仍然失败时,此链接就会被放到失败链接,当其他所有队列都为空时,失败队列里面的链接再重试一次,这些链接重试完成后,爬虫结束。

链接去重

网站之中链接存在循环,爬虫在爬去的过程中,如果不做控制,很容易陷入死循环。

比较好的方式就是对已经处理过的链接做标记,进行去重处理,(因为大部分处理过的链接不需要再处理一次,另一方面避免爬虫进入死循环)

对于GET类型的请求:平台使用链接本身去重,但是!!!!平台不会对#做处理,

阅读全文 »
小鑫

小鑫

java Python AI
3 日志
3 分类
3 标签
RSS
GitHub E-Mail
© 2018 – 2019 小鑫
本站总访问量次
全站共4.2k字
|
0%