添加多级网址之自动获取网址
自动获取网址是采集器的默认选项。自动获取网址的原理是采集器根据源代码中的链接标签,如,来获取href后面的网址的。
一、采集网址之前,先分析下列表页的源代码。 看下内容页的链接地址是否是格式。如果是,则可以使用自动获取网址。
如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml
查看源代码为图一所示:
(图一)
这样的源代码,我们就可以使用自动获取网址。如图二
(图二)
二、自动获取网址选项的注意事项
1、问自动获取网址,会把整个网页的所有带的链接全部获取下来,这样有很多不是自己想要采集的文章,怎么办?
答:可以从选定的区域内获取范围,或者结果过滤中设置必须包含和不得包含的条件,
如上个例子,新浪内地新闻。如图三
(图三)