使用随机二级代理服务器
在我们采集过程中,如果遇到对方网站限制了你的ip访问,就可以通过二级代理服务器的功能,来实现更换ip。
1, 获取代理ip
首先我们需要获取一些代理ip(官方没有代理ip,这个ip请自行解决),然后按照下图格式:ip地址:端口号,一行一个写到txt文件里面:
上图可以看到格式是“IP:端口”。IP准备好后面会使用到。
2, 代理ip导入采集器
按照下图
然后把第一步准备好的代理IP,导入进去:
点击“浏览”,选择准备好的代理ip文本,如上图。这样就把文本里面的代理ip导入到采集器里面了,看下图:
点击右侧“批量验证”,验证结果如下:
只有状态是“通过”的才是有效,状态是“未通过”是不能用的给删掉。
3, 从网页中导入代理ip
比如http://www.itmop.com/proxy/post/1448.html 我们要把这样页面的代理ip给导进采集器里面,步骤如下图:
继续按照下图做:
上图中有个匹配正则表达式,如果你和我一样是正则门外汉的话,就不要深究这是什么东西了,不要动它就好。然后点击下面的“确定”按钮。
然后会有提示导入多少条的提示,点击确定,就可以看到结果了:
同样需要验证。
4,选项设置
选项设置这里也是必须设置好的:
端口设置:这个数字可以是修改,但是要记住,等会要使用的。
访问地址:上面我们说了要验证代理ip,是怎么验证的呢?
就是通过访问这个“访问地址”来验证的,同样可以修改,可以修改成你要访问的地址,这样对于确定代理ip是否有用更准确。
当访问结果包含一下字符时,验证通过:能正常访问的情况下,返回的源代码的部分。用来做为验证通过的依据。
以上设置好了,点击右下角的“保存&重新启动”,就可以了。
5,规则使用代理
设置如下图:
在规则的第四步“文件保存及部分高级设置”,设置Http请求设置
1. 服务器:填写127.0.0.1,一定要这样写。
2. 端口:上面我们说的端口这里就用到了,这2个部分保持一致。
这样就全部设置好了。