公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 新手上路 >> 功能介绍 >> 每次任务采集数,网址是否重复等小功能

每次任务采集数,网址是否重复等小功能

【作者:客服】【字号: 】【打印】【收藏

1,是否检查网址重复,网址重复多少条 停止采集是在第一步设置的如下图
P8$LR~(]CQ%)B[RE9(3A14Q.jpg
勾选 检查网址重复,采集器就会采集的时候判读下这个网址是否已经采集过了,默认已经采集过的采集器不会再次采集
下面有个“网址连续重复多少条后停止采集网址” 这个顾名思义 大家汉语还是能看懂吧 这里就不解释了
2,最大采集分页数,每次任务最大采集数,提取标签忽略大小写
是在规则第二步,采集内容规则 那里设置的 如下图
IK{GDRJP6O3RZY39TP[{Z~4.jpg
3,对不符合标签必须包含和不得包含的记录,是删除 还是标记为未采集
设置在第四步“文件保存及部分高级设置” 如下图
U~JHI[EA$PJ]W(VJ6]EWLXC.jpg

4,发布内容间隔时间,采集内容时间间隔时间

,设置在第四步“文件保存及部分高级设置” 如下图
K1ID3ZS]7T2[P8FOZ[NGDSC.jpg
这里说明下 这里的1000等于1秒
线程个数是指同一时间采集信息的条数
5,下载地址保存为文件
有的时候采集到的图片呀 文件呀 先不要下载而是保存起来放到迅雷里下载 这里就可以有个选项,把这些文件下载地址保存到一个文件里,在采集器里面是不会下载的,设置如下:
00_G@5W503{WSALV006ZP3K.jpg
这个生成的“任务id.htm” 保存到,文件下载设置=》所有文件保存文件夹  这里你设置的文件夹中, 找到这个文件后用浏览器打开这个文件 就可以添加到迅雷里下载了。
5,如何设置内容过滤
点击内容过滤四个字 9I[IFRNRL(JH5F$)_TWDR(O.jpg
设置采集的结果不得包含什么词或者必须包含什么词
对数据不满足这里要求的处理参考上面第三点说明
6,发布结束后对数据的处理
HWCV222]O05OZQDI089N(3O.jpg