如何把采集到的复杂的html标签替换为简单的格式
最常见的情况就是我们采集dz系统做的论坛,有图片的时候,它的图片代码都非常的复杂,比如我们论坛http://bbs.locoy.com/spider-134273-1-1.html
我们在采集器采集到的结果是:
一般图片的html标签是<img src=”图片地址”/>,那么我们怎么把采集到复制的html替换成这种标准的常见的格式呢。
首先在采集到的代码里面 zoomfile="data/attachment/forum/201307/02/094151ni3nd6gm2tymdu9x.jpg" 是我们的图片地址,这个都知道吧,找到了图片的地址
就好办了,我们可以用替换的功能来做如下图:
在内容替换那里,把不需要的代码我们都用(*)代替,需要的我们用[参数]表示,然后在右侧框内,组合成我们要的格式,如上图,下面我们来测试下替换后的结果:
是不是就替换好了!。
假如你对内容替换有不了解的可以参考教程:http://faq.locoy.com/q-711.html