设置采集内容不得为空,必须包含,不得包含
1,设置标签采集结果不得为空
编辑标签状态下 数据处理 最下面有个内容过滤 选择下
就看到右侧很多选项了“内容不得重复”“内容不得为空”“内容必须包含”“内容不得包含”
还有当内容长度不符合要求的时候时候过滤
这些都是很能看明白的东西吧
上图 不得包含和必须包含那里的“|”“↑” 解释说明 注意下
2,设置好了 你希望采集器如何处理这些不符合你要求的数据呢 看下图
在第四步“文件保存及部分高级设置” 右下角 ,看到了吧 2个选项
一个是删除 删除的话就是把这条信息删除掉,
一个是标记为未采集 是把这数据标记为未采集 下次运行任务的时候这条数据会被从新采集
这个的好处就是,当你是因为网速,或者别的原因采集不到数据的时候,
多运行又可以采集到,你就可以设置
为 未采集 等任务运行完了,你只要勾选采集内容 不要勾选采集网址
采集器就会把这些没有采集到的信息又从新采集一遍的
这样就保证数据的完整性