一个简单的论坛采集实例
在你看这个教程的时候,保证你已经完全掌握了一个简单的文章采集实例,所以本教程就只是论坛采集和文章采集不同处,相同处就不再多说了。
我们采集地址http://bbs.locoy.com/spider-132850-1-1.html,帖子里面主题还有回复,发帖人和回帖人。
同样打开帖子的页面源代码看下主题和回复的前后字符串在那里如下图:
查看页面源代码后我们发现主题和回复都在以字符“<div class="t_fsz">”开始以字符“</div>”,我们写到采集器里面如下图:
别忘了勾选“该标签循环匹配”(标签循环采集),如果帖子有分页要勾选“该标签在分页中匹配”(内容分页采集),然后点击“确定”按钮。
同样的发现无论发布主题的用户名还是回帖的用户名开始结束字符也是一样如下图:
写到采集器里面如下图:
测试结果如下:
其实采集是一样的就是用到了标签循环采集 。