公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 采集问题 >> 采集内容 >> 采用正则提取的方式采集网页源代码的内容

采用正则提取的方式采集网页源代码的内容

【作者:神秘嘉宾】【字号: 】【打印】【收藏

  正则提取其实就是用[参数]来代替源码中你想要采集的数据,然后把它匹配出来的。具体来看个例子:比如我们要采集这个网址中的

http://news.qq.com/a/20130830/014939.htm新闻标题。首先我们要在源码中找到它的唯一标识码:

image

我们在采集器做如下设置,用参数替换我们要采集的新闻标题。

image

image

采集得到的结果如下:

image 

注意事项:要采集的内容一定要找到唯一的标识符的,如果是多个参数的就用多个参数替换就可以了。