无限极列表网址采集
我们知道采集器的工作流程是从列表页采集到内容页的地址,然后才能按照规则采集内容页里面对应的内容。
比如我们采集“幽默笑话”这个分类下的文章 http://www.laifudao.com/wangwen/youmoxiaohua.htm 这个地址就是我们列表页的地址了
我们在起始网址:那里添加列表页地址
然后在多级网址获取:那里设置,采集到分类下面的内容页地址
这个是我们写采集规则的一般步骤,也叫1级网址获取,整个过程是从分类页地址采集内容页地址。
假如遇到从大分类页地址采集小分类页地址(或者分类还可以有更多级),然后在采集到内容页地址,我们的思路是从大分类,采集到小分类,然后在采集小分类采集内容页地址,上图说明
我们从“经典网文”这个大分类,采集下面“幽默笑话”,“冷笑话”等等小分类分类
我们把经典网文 做为起始地址 然后在多级网址获取那里,设置规则,采集到小分类的地址如下图:
选择你比较在行的方式获取到小分类的地址
我们来测试网址采集结果:
看到我们已经把小分类的地址采集到了,下面我们就要采集小分类下的文章地址了
我们再次,在多级网址获取那里添加获取小分类下文章地址采集设置,同样选择你比较熟悉的获取方式,我用的是第一种:
保存好后如下图:
测试结果如下图:
点开一个小分类地址 下面就是此分类下的文章地址
起始页是0级网址,采集到的小分类地址是1级网址,文章地址是2级地址,这样一次类推。从而实现无限极列表网址采集。我们这里只是设置了3级,其实这样是可以设置无限极,添加方式是
一样的,希望大家能举一反三。
还有一点假如,你要采集的地址不是列表页地址,就是直接是做为内容页采集比如我要直接采集这个地址http://www.laifudao.com/wangwen/67259.htm
把这个地址添加到起始页地址里面然后多级那里留空如下图:
我们测试下
采集器就不会采集这个地址下面的地址了。直接把这个地址当内容页采集。也就是常说的0级采集。