公告:
  • 欢迎访问火车采集器客户帮助中心

html标签排除

【作者:神秘嘉宾】【字号: 】【打印】【收藏

我们在采集的时候会采集到一些代码,那么我们就可以使用html标签过滤功能,可以很方便的将一些代码过滤掉。

1html标签过滤

请在 第二步:采集内容规则 标签窗口做如下设置即可

添加—html标签过滤

clip_image002

需要过滤的话 就在标签前面打勾

有个特殊的选项,如下图

clip_image004

如果勾选了这个选项,那么其他选项无论是否被勾选,都会全部排除掉,这个需要注意的,很常见的就是我没有勾选某个选项,对应的标签为什么会被排除掉,就是因为你把这个选项

勾选了。

具体的HTML 标签不过多讲解了,不明白的可问下度娘, HTML 各元素的含义,稍作了解。

2,常用的html标签

<p, <br>,空格 &nbsp; 是控制段落和空白处的,一般我们都会留下来,不然文字都会挤到一起会觉得文章没有格式。

<img 这个是图像标签如果你需要采集文章里面的图片 那么这个标签是要保留的,不然图片就被排除掉了。

其他html标签就需要自己查找资料去了解了。

如果通过这种方式还是不能把标签排除掉,就只能用替换了,这个标签排除功能只能对那么简单的标签进行排除,很多情况下,标签里面会加很多属性,可能导致这个功能

不能把这样复杂的html标签排除,那么就用替换为空来处理。