公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 新手上路 >> 功能介绍 >> 列表页分页和内容分页采集原理

列表页分页和内容分页采集原理

【作者:客服】【字号: 】【打印】【收藏

列表页分页和内容页分页原理是一样的,目的就是为了获取到下一页的地址!
除了js跳转的分页要插件处理以外,大部分的分页采集器是可以采集的!
下面用实例讲解下,获取分页的原理
http://b2b.youboy.com/class2/1_1036/
这个列表页我们要想在列表页获取下一页,首先看下第一页的源代码!

  1. <div class="page">
  2.    <SPAN class='current'>1</SPAN> <A href='/class2/1_1036/index2.html'>2</A> <A href='/class2/1_1036/index3.html'>3</A> <A href='/class2/1_1036/index4.html'>4</A> <A href='/class2/1_1036/index5.html'>5</A> <A href='/class2/1_1036/index6.html'>6</A> <A href='/class2/1_1036/index7.html'>7</A> <A href='/class2/1_1036/index8.html'>8</A> <A href='/class2/1_1036/index9.html'>9</A> <A href='/class2/1_1036/index10.html'>10</A> 
  3.   <A href='/class2/1_1036/index2.html'>></A>
  4.   <A href='/class2/1_1036/index500.html'>>></A>
  5.   </div>

复制代码

代码如上,原理就是:在第一页采集,怎么获取到分页第二页地址,在第二页怎么获取到第三页的地址,依次类推。一直获取到最后一页。
再分析下第二页的源代码

  1. <div class="page">
  2.   <a href='/class2/1_1036/'><<</a>
  3.   <A href="index1.html"><</A>
  4.    <A href='/class2/1_1036/'>1</A> <SPAN class='current'>2</SPAN> <A href='/class2/1_1036/index3.html'>3</A> <A href='/class2/1_1036/index4.html'>4</A> <A href='/class2/1_1036/index5.html'>5</A> <A href='/class2/1_1036/index6.html'>6</A> <A href='/class2/1_1036/index7.html'>7</A> <A href='/class2/1_1036/index8.html'>8</A> <A href='/class2/1_1036/index9.html'>9</A> <A href='/class2/1_1036/index10.html'>10</A> 
  5.   <A href='/class2/1_1036/index3.html'>></A>
  6.   <A href='/class2/1_1036/index500.html'>>></A>
  7.   </div>
  8.     </div>

复制代码

综合以上2段代码可以看出来。获取到这个分页,首先要确定下分页的范围,这个范围要保证每个页面都有!
我们选取以<div class="page">开始,以</div>结束!
范围选取好了,要设置获取到当前页的下一页地址了,可以首先试着自动识别分页,如果自动识别分页获取不到,或者获取不全!这样可以考虑地址样式获取
通过代码比对,可以这样设置<SPAN class='current'>(*)</SPAN> <A href='[参数]'。这个参数就是下一页的地址了!这样就可以获取到分页了!
1.jpg