公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 新手上路 >> 功能介绍 >> 带你认识火车采集器

带你认识火车采集器

【作者:神秘嘉宾】【字号: 】【打印】【收藏

一、火车采集器介绍

火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比最高、使用人数最多、市场占有率最大、使用周期最长的智能采集程序。

与同类软件相比优势有如下:

1. 通用性强,无论新闻论坛视频黄页图片以及下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,几乎都能采集到你所需要的内容。

2. 稳定高效,七年磨一剑,软件不断更新进步,同步于互联网的发展,永不落后,采集速度快,性能稳定,扩展性强,适用范围广。自定义web发布,自定义主流数据库的保存和发布,自定义

本地php及.net外部编程接口数据处理,让数据都能为你所用。

3.无意间发现一个网友对同类软件的比较:http://bbs.28tui.com/forum.php?mod=viewthread&tid=1455462,立场会更中立。

二、火车采集器术语

为了让大家更快更容易的上手火车采集器,先把关于采集器的几个重要也是必须要知道术语介绍下。

采集规则: 所谓采集规则就是我们要采集一个网站时,在软件里面进行的设置。这个设置可以从软件里面导出并保存成一个文件后缀名为.ljobx ,并且这个规则可以再导入任意一个火车采集器

里面使用。换句话说,就是用火车采集器能理解的方式告诉火车采集器我们要采集哪个网站,要采集网站里面的哪些信息的一系列设置。

发布模块:所谓发布模块就是在需要将已经采集到的数据发布到目的地(比如:发布到指定的网站上面或者发布到指定的数据库里面)时在火车采集器里面进行的设置。这个设置可以从采集器里

面导出成一个文件,并且可以把这个文件再次导入任意的火车采集器里面,多次使用。发布到指定网站的设置称为WEB在线发布模块后缀名是.wpm。其工作原理是:将采集的数据以POST方式

发送到网站页面程序中,并由网站程序对数据进行处理然后入到网站的数据库里面。发布到指定数据库的设置称为数据库发布模块,后缀名是.dbm。其工作原理是:连接数据库,将采集的数据

直接通过数据库的SQL语句直接把数据放到数据库里面。WEB在线发布模块和数据库发布模块统称为发布模块。(在线发布模块制作教程

采集任务:采集规则告诉采集我要采集什么,发布模块告诉采集器采集到的数据放到那里,这两者合在一起,就是一个包含数据采集和数据发布的采集任务。

发布接口:发布接口就是一个小的页面程序通常和WEB在线发布模块配合使用。来满足用户的特定需求。简单的说就是采集器将采集的数据发送到发布接口文件中,接口文件得到数据,并按照

用户特定需求处理数据,用户可以更加灵活自由的处理采集器采发送的数据。

插件:插件可以让用户通过自己写的PHP者.NET程序放到采集器中对采集的数据进行处理。

页面源代码:在使用采集器的过程中我们经常会说到查看源代码,那么如何查看什么是页面源代码呢?

右击页面空白处:

clip_image002

我用的是ie有的浏览器叫做“源文件”都是一样的。选择后我们打开了这样页面的源文件如下图:

clip_image004[5]

上图看到我们在页面看到的内容是同样存在于页面源代码里面,而且采集器采集信息的时候也是通过页面源代码,换句话说你看信息是通过页面,采集器看信息是通过源代码。以后规则设置

都是通过页面源代码的。

三、采集器工作原理

什么是数据采集?我们可以这样理解,我们打开一个网站,看到有一篇文章很不错,于是我们就将文章的标题和内容复制了一下,将这篇文章转到我们的网站上。我们的这个过程,就可以称作一

个采集,将别人网站上对自己有用的信息转到自己网站上。

采集器正是这样做这样的工作,不过整个过程是由软件完成的。我们可以这样理解,我们复制文章的标题和内容,是我们可以知道什么地方是内容,什么地方是标题,但是软件是不知道的,所以

我们要告诉软件,要怎么采,这就是写规则的过程。我们复制完了,打开我们网站,比如论坛发帖的地方,然后粘帖发表,对软件来说,就是模仿我们发表帖子的过程,去发表文章,怎么发布,

这就是数据发布了。

正如上面所述,采集器就是模拟人向所要采集的网站发出请求信息,对方网站把数据返回给采集器,采集器根据你设置的采集器规则,从返回网页的页面源代码里采集网站上的数据。不同的是,

我们人看的是页面上的信息,而采集器看的是页面源代码里的信息。如下图示意图:

clip_image004

四、采集器功能

采集器的功能很多现在把主要功能列举如下:

1. 多任务,多线程运行

2. 多页采集内容分页采集

3. 标签循环采集

4. 下载图片文件

5. 列表缩略图及列表页标签采集

6. 自动提取内容缩略图

7. 正则使用,自定义规则获取网址

8. 支持网站登录采集

9. 网页地址编码自动识别

10. 网页压缩,跳转采集

11. 自定义User-Agent,模拟蜘蛛采集

12. 支持使用代理服务器采集数据

13. 自动摘要,自动拼音

14. html标签排除

15. 采集记录筛选

16. 任务运行日志

17. WEB在线发布模块制作

18. 使用psot方法获得采集网址

19. 随机文件夹保存下载文件

20. 任意格式文件下载功能

21. 数据库发布模块编辑器

22. ACCESS数据库保存数据

23. 迅雷和FlashGet的地址解密

24. 增强型定时自动运行采集功能

25. 命令行启动程序

26. 本地任务数据编辑再发布功能

27. 使用ftp自动上传文件到网站

28. 简体繁体互转功能

29. Sqite数据库保存数据

30. Mysql数据库保存数据

31. SqlServer数据库保存数据

32. 文件自动上传到网站

33. 自动获取tag,生成中文关键词

34. 自动中文-英文翻译功能

35. 全局敏感词替换&近义词替换

38. 内容替换支持[参数],标签

39. php 外部编程插件

40. C#外部编程插件

41. 数据采集后直接发布或导入数据库

42. 无极限多页采集

43. 任务队列运行管理功能

44. 无限极分组任务管理,任务回收站功能

45. RSS地址采集功能

46. 列表页分页采集获取功能

47. 列表页附加参数获取功能

48. 列表页及标签Xpath可视化提取功能

49. 标签纯正则替换功能

50. Http接口管理采集器运行

51. 结果保存问本地html,txt文件

52. 标签间自由组合功能

53. 针对标签内容继续发送Http请求功能

54. 无限极列表网址采集

55. 从Http头信息中获取数据

56. 标题内容正文提取功能

57. Aspx列表分页自动识别

58. 多网站站群式web发布

59. 采集结果保存问本地word文件

60. 导出所有记录为Excel格式

61. 使用随机二级代理服务器

62. 多扩展间数据交换功能

63. 下载的图片自动加强型水印功能

64. ORC识别图片文字(图片转化为文字)

65. Mongodb数据库保存数据

66. 主从服务器分布式采集

视频介绍:http://pan.baidu.com/share/link?shareid=2956758477&uk=1040755304

     http://pan.baidu.com/share/link?shareid=133497900&uk=1040755304

了解了火车采集器,现在动手做一个简单的新闻采集吧。