小鑫

分为：入口页，帮助页，内容页

入口页： scanUrl 爬虫网页的入口

帮助页：helperurl 一帮包含大量的内容页（列表），多数情况下事业个内容列表，也叫列表页
contentUrl队列：此队列中存放内容页类型的链接，自动链接发现以及site.addUrl的时候，通过正则表达式来判断链接类型，如果是内容页，则将会加到此链接中

普通队列：一般存放的都是帮助页类型的链接，自动链接发现以及site.addUrl 的时候，通过正则表达式来判断链接类型，如果不是内容页，将会加到此队列中

失败队列：一种特殊的队列，用来存放处理失败的链接。

链接调度

一次调度一个链接：默认情况下
contentUrl队列>普通队列>scanUrl队列

当configs.entriesFirst为true时，调度优先级为：
scanUrl队列>contentUrl队列>普通队列

在链接调度过程中，如果遇到了处理失败的情况：首先会触发链接的重试（此链接会被重新加载到队列中），当重试次数（入口页：5次；帮助页：3次；内容页2次）仍然失败时，此链接就会被放到失败链接，当其他所有队列都为空时，失败队列里面的链接再重试一次，这些链接重试完成后，爬虫结束。

网站之中链接存在循环，爬虫在爬去的过程中，如果不做控制，很容易陷入死循环。

比较好的方式就是对已经处理过的链接做标记，进行去重处理，（因为大部分处理过的链接不需要再处理一次，另一方面避免爬虫进入死循环）

对于GET类型的请求：平台使用链接本身去重，但是!!!!平台不会对#做处理，