公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 新手上路 >> 功能介绍 >> 标签纯正则替换功能

标签纯正则替换功能

【作者:客服】【字号: 】【打印】【收藏

我们可以通过标签纯正则替换功能,从采集的信息里面提取我们想要的内容,这个功能需要有一定的正则表达式功底,这里

重点说明采集器里面如何使用正则,具体的正则是什么意思,你如果想使用可以查资料研究,这个不是我们教程的重点。

这个功能就是用正则表达式分开来表达我们需要的部分和不需要的部分,然后把需要的那那部分拿出来,不要的那部分就去掉。

用下面的一个例子来简单说明下如何在采集器里面使用:

打开正则替换界面:

clip_image002

界面如下:

clip_image004

原正则表达式 : 用正则把需要的部分和不需要的部分分开表示出来,不同部分用括号区分开来

替换后表达式 : 把需要的那部分放到这里,也可以随意写些别的组合在这里,用采集器自带的表示

方式 $1 $2 $数字表示

clip_image006

比如上图我们要从标题里面使用正则把“清纯女生”四个字给提取出来。

使用正则把标题给表示出来如下图:

clip_image008

原理是:用最简单的正则 前面3个汉字做为一组 中间4个汉字做为一组 剩下的是一组 每一组用括号()区分我们要的是

第二组 那么替换后表达式就直接写$2 要第一组就是$1 以此类推。采集器里面使用正则的规律就是上面说的那样先用正则

分开表示 用括号区分开来 然后用$1 $2 $数字 依次对应表示结果。

看下测试结果:

clip_image010

测试结果是对的。