实现敏感词汇过滤python,敏感词过滤算法有几种
PHP过滤敏感词/关闭词(带敏感词词典)。过滤敏感词和敏感字符是网站的基本功能,因此需要设计一个优秀高效的过滤算法。在敏感词过滤算法中,需要减少计算量,而在DFA算法中,计算量只是状态转移。因此,为了更有效地过滤敏感词,需要DFA算法。
要组织过滤器功能代码,请遵循以下步骤:
//*
*注意:【用多个过滤词过滤字符中的敏感词】
*作者HeZe
*第2021/1/614号:48
*@param$list一维数组过滤器[drdjmg ,大白, xdbb ,舒服的豆芽,我,你]
*@param$string输入文字像xxdbb喜欢大黄配舒服的豆芽。
*@returnstring过滤后的单词,如* * like *大黄
*/
functiondofilterwords($list,$string,$ symbol=* )
{
$ count=0;//非法的字符数
$ Sensitive words=//非法词语
$ stringAfter=$ string//被替换的内容
$ pattern=/ .内爆(),$list)。/I ;//定义正则表达式
If(preg_match_all($pattern,$ string,$ matches) )//匹配结果
$ pattern list=$ matches[0];//数组匹配位置
$ count=count($ pattern list;
$ sensitive words=内爆(,)$ pattern list);//将敏感词数组转换为字符串
//合并并替换匹配的数组
$ replace array=array _ combine(pattern list,array_fill(0) 0,count,$ symbol));
$stringafter=strtr($string,$ replace array);//结果替换
}
$ log=原语是[{ $ string }]br/;
如果(count==0
$log .=敏感词还是不一致!;
}否则{
$log .=匹配[{ $count}]个敏感词。[{$ sensitive words}] br /。但是[{ $ string after }];
}
返回$ log
}使用方法
//筛选同义词库
$ list=[DRD JMG ,高大白猫,大白, XX DBB ,舒服豆芽,我,你]
//输入文本
$ string=你喜欢的xxdbb喜欢舒服的豆芽你喜欢的大黄;
调用//函数
$RES=dofilterwords($list,$string, *;
echo $ res
//输出结果
我喜欢你。Xxdbb喜欢舒服的豆芽。像大黄]
【3】敏感词汇搭配:【你,xxdbb,豆芽心情好】
相反,[喜欢* *喜欢*爱大黄]
最后附上敏感词和停用词词典。https://gitee.com/zehe/stopwords
请注明出处~ ~ ~ ~ ~
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。