公告:
  • 欢迎访问火车采集器客户帮助中心
首页 >> 问题百科 >> 新手上路 >> 功能介绍 >> 全局敏感词替换&近义词替换

全局敏感词替换&近义词替换

【作者:神秘嘉宾】【字号: 】【打印】【收藏

全局敏感词替换&近义词替换,功能可以把要替换的词写成一个txt,遇到要替换的标签,只需要选择下就可以了,一次设置,多次使用。

第一步:设置同义词替换词库

clip_image004

通过上图,高级==》同义词替换管理,来编辑替换词库。如下图:

clip_image006

给词库命个名,然后点击“保存”按钮来保存。

两词之间我们设置的是以“,”号分隔,这个是可以随意设置的。

保存格式为一行一个同义词和一个或多个同义词。

按照上面的设置,我们在左侧侧空白处写了2个例子,现在解释下用途。

高兴,开心 :在采集结果中遇到“高兴”就会替换成“开心”;

吃饭,睡觉,火车采集器,下班 :在采集结果中遇到“吃饭”就会从后面的“睡觉”“火车采集器”“下班”,三个词中任意选择一个替换。

大家可以看到他们其实并不是同义词关系,这个功能虽然叫同义词替换,其实采集器是不区分到底它们是不是同义词,这样就不仅仅用作同义词的替换,还可以替换别的,发散思维。

这样一行一行设置好了,点击“保存修改”按钮保存。

通过上面的设置,会生成一个txt文件在采集器的\Configuration\Synonym目录下,如下图

clip_image008

直接在这里编辑删除操作。

第二步,在规则里面选择使用

标签编辑的数据处理那里,添加==》高级功能==》同义词替换,如下图

clip_image010

选择:

clip_image012

这里有个双向替换 的选项框,有使用介绍,自己看下。