megaloscope 敏感词识别

思路

1.构建敏感词库
支持单个词,多个词组合(这样更合理,如:澳门、读博、网站 单一个词是不构成敏感句子的)
支持拼音检测,
支持排除规则
2.对于输入源信息,拆分成句子,以句子为单位并行检测
3.使用AC算法检测

调用方法

参见DEMO

规则文件编写说明

采用文本文件格式存放
一行一条规则
一条规则可以是1个词,也可以是多个组合词
组合词之间用+号连接,
在组合词(单个词)后可以跟^号,用于定制排除词,
排除词间用|连接