post的分页简单说明
大家在采集列表分页的时候会遇到,点击下面的分页页面内容是改变了 ,但是浏览器地址却没有改变 ,
是吧 好奇怪是吧,是的,好奇怪, 这个种情况分页是post的 方式,今天我们来说下这个种情况 该如何获取分页
用这个网址来做例子http://www.yidianda.com/category/two/1-7.html
首先你要选项下用fiddler抓包 教程这里 好好看看 一定要会用 要不然 下面就没有办法做了http://bbs.locoy.com/spider-107387-1-1.html 这个是简单的教程 只要帖子里说的会用 就可以了 如果你要学习具体的 可以在论坛搜索这方面的教程 这里自行解决
这里假设你已经掌握了 fiddler的使用了 我们开启fiddler然后点击下面的分页看下fiddler都抓到了什么
我们点击第三页 和第5页 抓包 看看分别获取什么
说明如上图 这样比较不好比较我们把结果保存的文本中来比较就很方便了 用按钮“View in Notepad” 把结果保存到文本中来比较
按照 上图的说明我们找到ec_p的值就是分页,这里大家明白了吧
ec_crd=32&ec_p=5&id=1&pid=7&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice=
这些是提交的值 那采集器里如何设置呢 如下图
我们看到除了ec_p还有比的参数如ec_crd这些 那这些是什么呢
我们去页面源代码里找下我们以这个参数为例ec_crd 别的一样处理
这个源代码里的情况 我们最终要获取他的值也就是"32" 在采集如何获取呢
采集器里获取 在采集器里像这样的参数叫做post随机值