公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 新手上路 >> 功能介绍 >> 无限极列表网址采集

无限极列表网址采集

【作者:神秘嘉宾】【字号: 】【打印】【收藏

我们知道采集器的工作流程是从列表页采集到内容页的地址,然后才能按照规则采集内容页里面对应的内容。

比如我们采集“幽默笑话”这个分类下的文章 http://www.laifudao.com/wangwen/youmoxiaohua.htm 这个地址就是我们列表页的地址了

clip_image004

我们在起始网址:那里添加列表页地址

然后在多级网址获取:那里设置,采集到分类下面的内容页地址

这个是我们写采集规则的一般步骤,也叫1级网址获取,整个过程是从分类页地址采集内容页地址。

假如遇到从大分类页地址采集小分类页地址(或者分类还可以有更多级),然后在采集到内容页地址,我们的思路是从大分类,采集到小分类,然后在采集小分类采集内容页地址,上图说明

clip_image006

我们从“经典网文”这个大分类,采集下面“幽默笑话”,“冷笑话”等等小分类分类

我们把经典网文 做为起始地址 然后在多级网址获取那里,设置规则,采集到小分类的地址如下图:

clip_image008

选择你比较在行的方式获取到小分类的地址

clip_image010

我们来测试网址采集结果:

clip_image012

看到我们已经把小分类的地址采集到了,下面我们就要采集小分类下的文章地址了

clip_image014

我们再次,在多级网址获取那里添加获取小分类下文章地址采集设置,同样选择你比较熟悉的获取方式,我用的是第一种:

clip_image016

保存好后如下图:

clip_image018

测试结果如下图:

clip_image020

点开一个小分类地址 下面就是此分类下的文章地址

起始页是0级网址,采集到的小分类地址是1级网址,文章地址是2级地址,这样一次类推。从而实现无限极列表网址采集。我们这里只是设置了3级,其实这样是可以设置无限极,添加方式是

一样的,希望大家能举一反三。

还有一点假如,你要采集的地址不是列表页地址,就是直接是做为内容页采集比如我要直接采集这个地址http://www.laifudao.com/wangwen/67259.htm

把这个地址添加到起始页地址里面然后多级那里留空如下图:

clip_image022

我们测试下

clip_image024

采集器就不会采集这个地址下面的地址了。直接把这个地址当内容页采集。也就是常说的0级采集。