假如需要采集的网站有2种页面格式如何处理？

【作者：客服】【字号：大中小】【打印】【收藏】

例如采集下面个地址

查看页面源代码发现“地址”的页面源代码是不同的如下：

另一种是：

那么像这样的情况在采集器里面如何设置呢，看下图

如上图可以选择正则提取，然后匹配的内容写成：(第一种情况开始字符串|第二种情况开始字符串)(?<content>[\s\S]*?)(第一种情况结束字符串|第二种情况结束字符串)，２种情况之间用

“｜”隔开，就上面说的网址采集规则设置如下图：

这样就可以适用于２种不同的页码源代码了，当然这些也只能处理２种不同的，如果有很多种就只能每种情况写一个规则了

问题分类