列表页分页和内容分页采集原理
列表页分页和内容页分页原理是一样的,目的就是为了获取到下一页的地址!
除了js跳转的分页要插件处理以外,大部分的分页采集器是可以采集的!
下面用实例讲解下,获取分页的原理
http://b2b.youboy.com/class2/1_1036/
这个列表页我们要想在列表页获取下一页,首先看下第一页的源代码!
- <div class="page">
- <SPAN class='current'>1</SPAN> <A href='/class2/1_1036/index2.html'>2</A> <A href='/class2/1_1036/index3.html'>3</A> <A href='/class2/1_1036/index4.html'>4</A> <A href='/class2/1_1036/index5.html'>5</A> <A href='/class2/1_1036/index6.html'>6</A> <A href='/class2/1_1036/index7.html'>7</A> <A href='/class2/1_1036/index8.html'>8</A> <A href='/class2/1_1036/index9.html'>9</A> <A href='/class2/1_1036/index10.html'>10</A>
- <A href='/class2/1_1036/index2.html'>></A>
- <A href='/class2/1_1036/index500.html'>>></A>
- </div>
复制代码
代码如上,原理就是:在第一页采集,怎么获取到分页第二页地址,在第二页怎么获取到第三页的地址,依次类推。一直获取到最后一页。
再分析下第二页的源代码
- <div class="page">
- <a href='/class2/1_1036/'><<</a>
- <A href="index1.html"><</A>
- <A href='/class2/1_1036/'>1</A> <SPAN class='current'>2</SPAN> <A href='/class2/1_1036/index3.html'>3</A> <A href='/class2/1_1036/index4.html'>4</A> <A href='/class2/1_1036/index5.html'>5</A> <A href='/class2/1_1036/index6.html'>6</A> <A href='/class2/1_1036/index7.html'>7</A> <A href='/class2/1_1036/index8.html'>8</A> <A href='/class2/1_1036/index9.html'>9</A> <A href='/class2/1_1036/index10.html'>10</A>
- <A href='/class2/1_1036/index3.html'>></A>
- <A href='/class2/1_1036/index500.html'>>></A>
- </div>
- </div>
复制代码
综合以上2段代码可以看出来。获取到这个分页,首先要确定下分页的范围,这个范围要保证每个页面都有!
我们选取以<div class="page">开始,以</div>结束!
范围选取好了,要设置获取到当前页的下一页地址了,可以首先试着自动识别分页,如果自动识别分页获取不到,或者获取不全!这样可以考虑地址样式获取
通过代码比对,可以这样设置<SPAN class='current'>(*)</SPAN> <A href='[参数]'。这个参数就是下一页的地址了!这样就可以获取到分页了!