批量网址中的区间变化 的原理介绍
区间变化的变化原理为:地址中的两个参数以固定的间隔进行增长,并且相邻两组值的结束值与起始值间隔为1,以这种形式变化增长的地址格式可以使用区间变化来处理。
比如以https://www.powerchina.cn/col/col7440/index.html?uid=46098&pageNum=1,网址为例,我们使用fiddler抓包网址变化如下:
第一页:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=1&endrecord=16&perpage=16
第二页:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=17&endrecord=32&perpage=16
第三页:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=33&endrecord=48&perpage=16
。。。
如下图,我们可以清晰的看到列表网址中,每一页的起始值跟结束值都相差15,且相邻的页数,上一页的结束值与下一页的起始值相差为1,符合区间变化的规律。
所以就可以按照下图设置,变化的字段选用地址参数,起始值用[地址参数],结束值用[地址参数1],区间步长使用起始值与结束值的间隔数。
然后fiddler抓取的post值填写到采集器中,使用自动获取链接,即可抓取列表页数据