假如需要采集的网站有2种页面格式如何处理?
例如采集下面个地址
http://bj.zufang.sina.com.cn/detail/23661567/
http://bj.zufang.sina.com.cn/detail/33103793/
查看页面源代码发现“地址”的页面源代码是不同的如下:
另一种是:
那么像这样的情况在采集器里面如何设置呢,看下图
如上图可以选择正则提取,然后匹配的内容写成:(第一种情况开始字符串|第二种情况开始字符串)(?<content>[\s\S]*?)(第一种情况结束字符串|第二种情况结束字符串),2种情况之间用
“|”隔开,就上面说的网址采集规则设置如下图:
这样就可以适用于2种不同的页码源代码了,当然这些也只能处理2种不同的,如果有很多种就只能每种情况写一个规则了