公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 采集问题 >> 采集内容 >> 假如需要采集的网站有2种页面格式如何处理?

假如需要采集的网站有2种页面格式如何处理?

【作者:客服】【字号: 】【打印】【收藏

 

例如采集下面个地址

http://bj.zufang.sina.com.cn/detail/23661567/

http://bj.zufang.sina.com.cn/detail/33103793/

 

查看页面源代码发现“地址”的页面源代码是不同的如下:

image

另一种是:

image

那么像这样的情况在采集器里面如何设置呢,看下图

image

如上图可以选择正则提取,然后匹配的内容写成:(第一种情况开始字符串|第二种情况开始字符串)(?<content>[\s\S]*?)(第一种情况结束字符串|第二种情况结束字符串),2种情况之间用

“|”隔开,就上面说的网址采集规则设置如下图:

image

这样就可以适用于2种不同的页码源代码了,当然这些也只能处理2种不同的,如果有很多种就只能每种情况写一个规则了