采集记录筛选
有时有些采集的数据不需要怎么办?火车采集器的记录筛选功能可以完成这个工作。火车采集器记录筛选有以下几个处理方法:
内容过滤
请在 第二步:采集内容规则标签窗口做如下设置即可
1,内容必须包含和内容不得包含
采集的内容包含某些词或者不包含某些词。多个词之间的关系用“|”和“↑”来表示。
“|” 为只包含其中一个即可,多个词之间,或的关系;
“↑”为多个条件必须都包含,与的关系,两者不可混淆使用。
2,采集结果不得为空
该功能可以让某个字段不出现空内容。
3,采集结果不得重复
该功能可以让某个字段不出现重复内容。
4,当内容长度过滤
可以设置当采集的内容长度大于或者小于或者等于或者不等于某字数时,该条过滤。
对于满足上述四条中的任何一条或者多条的情况下,采集器的处理结果是可以设置删除此条记录,或者把此条记录标记为未采集下次运行任务会再次采集。
在编辑规则的第四步:文件保存及部分高级设置
如上图,可以对符合上述设置的记录进行删除 或者 标记为未采。
删除 :就是把这条记录删掉,不会采集下来 。
标记为未采 :就是把这条记录标记为未采集 然后每次运行任务都会采集一次