搜索“正则”共 24 条信息:
-
火车采集器V9如何采百度关键词
当我们在进行网站优化以及内容更新的时候会发现,大批量更新文章是需要很多关键词。而自己手动统计的关键词是远远不够使用的,因此我们会从其他同类型的网站中获取关键词,这时就要用到网页抓取工具,进行关键词的高效采集,也能大大减少时间和人力成本。具体如何操作呢?请根据下面的步骤来学习一下。1:得到50条百度搜...
-
批量导入Http二级代理
在使用Http二级代理的时候,经常会使用到批量导入这个功能,下面讲解一下该功能的用法。打开Http二级代理,可以看到如下界面点击下方的批量导入按钮会弹出如下对话框先准备好一个有IP地址的TXT文件导入格式为:ip:端口,一行一个点击批量导入--浏览--选中 代理.txt 文件。这样,代理IP 就导入...
-
V9.11-列表页新增“地址处理”功能
示例网址,新浪滚动新闻:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1点击下一页,抓包可获取真实地址: https://fee...
-
元素操作
1.写值:先找到需要输入值的输入框,有两种方式:XPath 和元素定位,XPath 定位如果提取到规则有两个,就可以将另一个规则放在备选提取规则中。如果发现提取的规则变化的并且超过两个,这时可以用元素定位来操作,将变化的地方用正则替代。文本的输入方式可以根据选择的框架来选择。可以选择在写值是是否需要...
-
如何获取当前采集页的地址
如下图勾选“从网址中采集” 提取数据方式选择“正则提取”,表达式写“^(?<content>[\s\S]*?)$” 测试结果: 就可以把采集页的地址采集到了。 如果你想把采集页地址保存到本地文件可以直接使用[标签:PageUrl] 这个就...
-
数据提取方式支持调用其他标签值的介绍
数据提取方式支持调用其他标签值可以让采集过程更加灵活,在提取中点击标签符号即可调用其他标签的值。下面介绍下具体使用方法:我们以网址:https://detail.tmall.com/item.htm?id=644685533017,为例,目的为提取sku对应的颜色名称,以一个颜色为示例:目标网站获取...
-
假如需要采集的网站有2种页面格式如何处理?
例如采集下面个地址 http://bj.zufang.sina.com.cn/detail/23661567/ http://bj.zufang.sina.com.cn/detail/33103793/ 查看页面源代码发现“地址”的页面源代码是不同的如下: ...
-
在原网页的源码中可以找到下载地址
只要在原网页的源代码中找到这个下载地址并可以在网页中找到个唯一的标识符进行判断,我们就可以使用采集器中的 探测任意文件并下载将其下载下来。具体的我们用个例子说明下: 比如我们要下载这个网页http://www.crsky.com/soft/11980.html中软件, 首先我们要...
-
火车采集器V9-获取内容页网址
获取当前采集页的网址,可以按下面设置, 正则提取规则为: ^(?<content>[\s\S]*?)$ ...
-
火车采集器V9版已采数据批量内容替换功能介绍
我们在实际采集过程中可能会经常遇到,数据采集完了发现某个数据处理没设置或者设置的不对,需要重新设置重新采集,但数据量又比较大,重新采集比较耗时。那我们就可以使用数据替换功能。 首先要在任务中右键选择本地编辑数据,如上图然后右侧出现上图,点击右下角替换 然后可以选择要替换的标签和区...