公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 采集问题 >> 采集内容 >> 使用html排除不掉的html标签如何除去

使用html排除不掉的html标签如何除去

【作者:客服】【字号: 】【打印】【收藏

 

如果在数据处理这一步选择了“Html标签过滤”,这里排除的html标签是那些格式简单的标签,比如标签是<li class=”nav”>之类的有可能排除不掉。

image

 

那么上述情况该怎么办呢?我们可以使用替换的功能。把标签替换为空,具体做法如下图:

image

按照上图把标签替换为空就可以了,为什么用<li(*)>?  ”(*)”代表是任意,那么我不管<li 后面有什么都会当初普通的<li>标签来处理的,这样就可以包含任意一种<li>的情况。

 

其他标签设置同理。