火车头采集教程和web在线发布模块-Discuz X2.5在线发布模块
我们知道采集就是把别人网站上的信息直接照搬到我们自己的网站上,这样可为我们刚开起来的网站丰富下内容,看起来网站才像个网站。如何采集别人的内容呢?这是初学者都难操作,有的更难理解的一个问题。现在我写一个简单的教程,供大家参考。
1、采集时先要寻找目标网站
也就是采集源。它是和你的网站要放上去的内容相同的网站,而且最重要的一点是这个网站要适合你采集。如果是分类信息采集的话,你得看好他的地址,联系方式等信息都显示完全的吗?像58同城,百姓网等网站他在内容页面的有些信息显示是不完全的,得点击或者转到其他页面才能查看。这样的网站内容你就不好采集了。所以文章采集还是相对比较简单的,分类信息就难点多了。
其次是你要先确定采集的列表页面,比如我们采集固原二手网(http://www.gy2sw.com )的一个咨询页面。http://www.gy2sw.com/szwm/ 这个是列表页面,要采集这样的列表的所有内容。哪我们先要确定列表区域。
2、查看源码
我们网页http://www.gy2sw.com/szwm/ 点击IE上面的查看--源文件
然后Crtl+A全选 打开我们的编辑软件 DreamWeaver 8 新建html文档,点源码,把我们得到的列表页面的源码粘贴上去
此时我们就得到了我们要采集的列表页面的源码了,我们点击DreamWeaver 8的设计,将视图方式改成设计视图找找列表区域。
查看源码,也就是回到代码视图。看看这个列表的前面有什么特定的标识,看列表的最后面有什么特定的标识。这个标识不能重复,否则程序找不到开始标记和结束标记,也就不能确定要采集的列表区域。
我们看到在列表的上面有“版块主题”,而且这个标记每个列表页面都一样,但在一个列表页面只有这一个。我们就选定它做为列表的开始标记
然后要选 列表的结束,我们看到最下面是列表的页码区,也就是第一页,第二页。。。这个区域是唯一的。对,我们就选这个区域做为结束标记,转换到代码视图,看到唯一代码标记。<div class="pagepage"> 如图:
对了,这样我们就先定了列表页面的链接区域,这是第一步,再强调一次,这里要找的列表开始区域标记和结束标记都要在代码里面是唯一的,怎么办呢,就像上图。把要确定的开始或者结束标记代码选上,然后在全部代码中查找有没有。如果还有,就不好做标记了,如果没有重复就好