搜索“正则”共 24 条信息:
-
正则提取标签之 (?<content>[\s\S]*?)的语法讲解
以此网址为列 http://tieba.baidu.com/p/2376714043 采集 标题、时间、邮箱 来讲解 标题我们需要采集<title>和</title> 中间的内容写法 <...
-
采用正则提取的方式采集网页源代码的内容
正则提取其实就是用[参数]来代替源码中你想要采集的数据,然后把它匹配出来的。具体来看个例子:比如我们要采集这个网址中的 http://news.qq.com/a/20130830/014939.htm新闻标题。首先我们要在源码中找到它的唯一标识码: 我们在采集器做如下设置,用...
-
标签纯正则替换功能
我们可以通过标签纯正则替换功能,从采集的数据里面提取我们想要的内容,这个功能需要有一定的正则表达式功底,这里重点说明采集器里面如何使用正则,具体的正则是什么意思,可以查资 料研究,这个不是我们教程的重点。 这个功能就是用正则表达式分开来表达我们需要的部分和不需要的部分,然后把需要的那那部分拿出来...
-
标签纯正则替换功能
我们可以通过标签纯正则替换功能,从采集的信息里面提取我们想要的内容,这个功能需要有一定的正则表达式功底,这里 重点说明采集器里面如何使用正则,具体的正则是什么意思,你如果想使用可以查资料研究,这个不是我们教程的重点。 这个功能就是用正则表达式分开来表达我们需要的部分和不需要的部分,然后把需要的那...
-
关于采集器运行时CPU占用特别高的原因及解决办法
程序中使用大量的复杂计算后,CPU的占用将会升高。如果是采集器占用CPU居高不下,那说明用户写的采集规则有严重的问题,需要修改。以下是常见问题及修改方法 1.使用大量的(*)通配符 (*)在程序运行时,会解析成正则表达式中的[\s\S]*?.如果一个标签中(*)非常多,最后的正则...
-
火车采集器V9入门之内容采集 实例讲解
开始学习内容采集之前先了解下专业术语:标签:标签是我们需要采集的内容类别,比如:标题、正文、作者……我们通过一个标签对同一类采集内容进行通用的规则设置。(*):火车采集器中变量的通用符号,如果我们只需要知道这个变量的变化规律,而不需要关心这个变量到底是什么,这时就可使用这个符号代替。多页:有些情况下...
-
http二级代理新增API请求功能
最新版的采集器中新增加了对于http二级代理的API请求功能,下面介绍一下这个功能如何添加。首先您需要找到一家代理IP,该代理需提供通过API获取IP的功能,下面来设置http功能1.打开http二级代理服务器,点击批量导入。2.点击添加按钮。直接将生成的API地址放入火车采集器地址栏处(图中画圆圈...
-
多页采集
什么是默认页?什么是多页?假如我们通过采集器采集到了最终内容也地址是http://fsdeshun.cn.1688.com/,然后我们还想点击导航栏上面的“联系方式”进入到联系页地址 http://fsdeshun.cn.1688.com/page/contactinfo.htm来继续采集信息。 ...
-
使用随机二级代理服务器
在我们采集过程中,如果遇到对方网站限制了你的ip访问,就可以通过二级代理服务器的功能,来实现更换ip。 1, 获取代理ip 首先我们需要获取一些代理ip(官方没有代理ip,这个ip请自行解决),然后按照下图格式:ip地址:端口号,一行一个写到txt文件里面: 上图可以看到格式是“IP:端口...
-
带你认识火车采集器
一、火车采集器介绍 火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比最高、使用人数最多、市场占有率最大、使用周期最长的智能采集程序。 与同类软件相比优势有如下: 1. 通用性强,无论新闻论坛视频黄页图片以及下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,几乎都...