公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 采集问题 >> 采集网址 >> 添加多级网址之自动获取网址

添加多级网址之自动获取网址

【作者:神秘嘉宾】【字号: 】【打印】【收藏

自动获取网址是采集器的默认选项。自动获取网址的原理是采集器根据源代码中的链接标签,如,来获取href后面的网址的。

一、采集网址之前,先分析下列表页的源代码。 看下内容页的链接地址是否是格式。如果是,则可以使用自动获取网址。

      如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

      查看源代码为图一所示:

      image

                                                               (图一)

     这样的源代码,我们就可以使用自动获取网址。如图二

      image

                                                             (图二)

二、自动获取网址选项的注意事项

1、问自动获取网址,会把整个网页的所有带的链接全部获取下来,这样有很多不是自己想要采集的文章,怎么办?

    答:可以从选定的区域内获取范围,或者结果过滤中设置必须包含和不得包含的条件,

    如上个例子,新浪内地新闻。如图三

    image

                                                        (图三)