火车采集器V9入门之内容采集实例讲解

【作者：客服小唐】【字号：大中小】【打印】【收藏】

开始学习内容采集之前先了解下专业术语：

标签：标签是我们需要采集的内容类别，比如：标题、正文、作者……我们通过一个标签对同一类采集内容进行通用的规则设置。

（*）：火车采集器中变量的通用符号，如果我们只需要知道这个变量的变化规律，而不需要关心这个变量到底是什么，这时就可使用这个符号代替。

多页：有些情况下，需要采集一个页面对应的网址，图片等内容时，需要另外打开一个新的页面才能采集到这些信息，这些另外打开的页面则称为多页。

我们以中国低碳网为例，我们打开一篇文章看看需要哪些字段

这样就可以确定我们需要设置的标签有：标题、时间、正文、来源等，我们逐个设置。

标题：打开网页源代码，找到标题的前后唯一字符串，使用前后截取的方式获取数据。（不一定只用一种方式，可以灵活选择，多打开几页查看一下是否相同）

正文：

前字符串：

后字符串：

时间：我们可以把原文的发布时间采集下来，也可以自行生成当前的时间，以便发布时使用。

分别设置如下

来源：

为什么前字符串不是</div>？查找可以发现，这并不是唯一字符串，如果填写</div>
会影响采集结果。

来源网址：在采集的同时如果需要保存页面地址该怎么操作呢？源代码中并没有地址，这里就需要从网页地址中采取正则提取的方式。

(?<content>[\s\S]*?) 里的 [\s\S]*? 的意思就是匹配任意字符，并返回结果的意思。而^和$分别代表：“匹配输入字符串开始的位置”和“匹配输入字符串结尾的位置” ，你们get了吗？（正则语法小白们可以点此学习一下）

所有的标签都完成后我们来测试一下。

可以看到正文里有很多不需要的链接和字符，重新回到标签编辑，对正文进行一些处理：

再测试一次，ok啦，我们还可以多换几个页面测试下，如果都没有问题就可以保存规则，嗖嗖嗖内容采起来~

问题分类