标签纯正则替换功能
我们可以通过标签纯正则替换功能,从采集的信息里面提取我们想要的内容,这个功能需要有一定的正则表达式功底,这里
重点说明采集器里面如何使用正则,具体的正则是什么意思,你如果想使用可以查资料研究,这个不是我们教程的重点。
这个功能就是用正则表达式分开来表达我们需要的部分和不需要的部分,然后把需要的那那部分拿出来,不要的那部分就去掉。
用下面的一个例子来简单说明下如何在采集器里面使用:
打开正则替换界面:
界面如下:
原正则表达式 : 用正则把需要的部分和不需要的部分分开表示出来,不同部分用括号区分开来
替换后表达式 : 把需要的那部分放到这里,也可以随意写些别的组合在这里,用采集器自带的表示
方式 $1 $2 $数字表示
比如上图我们要从标题里面使用正则把“清纯女生”四个字给提取出来。
使用正则把标题给表示出来如下图:
原理是:用最简单的正则 前面3个汉字做为一组 中间4个汉字做为一组 剩下的是一组 每一组用括号()区分我们要的是
第二组 那么替换后表达式就直接写$2 要第一组就是$1 以此类推。采集器里面使用正则的规律就是上面说的那样先用正则
分开表示 用括号区分开来 然后用$1 $2 $数字 依次对应表示结果。
看下测试结果:
测试结果是对的。