html标签排除
我们在采集的时候会采集到一些代码,那么我们就可以使用html标签过滤功能,可以很方便的将一些代码过滤掉。
1、html标签过滤
请在 第二步:采集内容规则 标签窗口做如下设置即可
添加—html标签过滤
需要过滤的话 就在标签前面打勾
有个特殊的选项,如下图
如果勾选了这个选项,那么其他选项无论是否被勾选,都会全部排除掉,这个需要注意的,很常见的就是我没有勾选某个选项,对应的标签为什么会被排除掉,就是因为你把这个选项
勾选了。
具体的HTML 标签不过多讲解了,不明白的可问下度娘, HTML 各元素的含义,稍作了解。
2,常用的html标签
<p, <br>,空格 是控制段落和空白处的,一般我们都会留下来,不然文字都会挤到一起会觉得文章没有格式。
<img 这个是图像标签如果你需要采集文章里面的图片 那么这个标签是要保留的,不然图片就被排除掉了。
其他html标签就需要自己查找资料去了解了。
如果通过这种方式还是不能把标签排除掉,就只能用替换了,这个标签排除功能只能对那么简单的标签进行排除,很多情况下,标签里面会加很多属性,可能导致这个功能
不能把这样复杂的html标签排除,那么就用替换为空来处理。