实现敏感词汇过滤python,敏感词过滤算法有几种

  实现敏感词汇过滤python,敏感词过滤算法有几种

  PHP过滤敏感词/关闭词(带敏感词词典)。过滤敏感词和敏感字符是网站的基本功能,因此需要设计一个优秀高效的过滤算法。在敏感词过滤算法中,需要减少计算量,而在DFA算法中,计算量只是状态转移。因此,为了更有效地过滤敏感词,需要DFA算法。

  要组织过滤器功能代码,请遵循以下步骤:

  //*

  *注意:【用多个过滤词过滤字符中的敏感词】

  *作者HeZe

  *第2021/1/614号:48

  *@param$list一维数组过滤器[drdjmg ,大白, xdbb ,舒服的豆芽,我,你]

  *@param$string输入文字像xxdbb喜欢大黄配舒服的豆芽。

  *@returnstring过滤后的单词,如* * like *大黄

  */

  functiondofilterwords($list,$string,$ symbol=* )

  {

  $ count=0;//非法的字符数

  $ Sensitive words=//非法词语

  $ stringAfter=$ string//被替换的内容

  $ pattern=/ .内爆(),$list)。/I ;//定义正则表达式

  If(preg_match_all($pattern,$ string,$ matches) )//匹配结果

  $ pattern list=$ matches[0];//数组匹配位置

  $ count=count($ pattern list;

  $ sensitive words=内爆(,)$ pattern list);//将敏感词数组转换为字符串

  //合并并替换匹配的数组

  $ replace array=array _ combine(pattern list,array_fill(0) 0,count,$ symbol));

  $stringafter=strtr($string,$ replace array);//结果替换

  }

  $ log=原语是[{ $ string }]br/;

  如果(count==0

  $log .=敏感词还是不一致!;

  }否则{

  $log .=匹配[{ $count}]个敏感词。[{$ sensitive words}] br /。但是[{ $ string after }];

  }

  返回$ log

  }使用方法

  //筛选同义词库

  $ list=[DRD JMG ,高大白猫,大白, XX DBB ,舒服豆芽,我,你]

  //输入文本

  $ string=你喜欢的xxdbb喜欢舒服的豆芽你喜欢的大黄;

  调用//函数

  $RES=dofilterwords($list,$string, *;

  echo $ res

  //输出结果

  我喜欢你。Xxdbb喜欢舒服的豆芽。像大黄]

  【3】敏感词汇搭配:【你,xxdbb,豆芽心情好】

  相反,[喜欢* *喜欢*爱大黄]

  最后附上敏感词和停用词词典。https://gitee.com/zehe/stopwords

  请注明出处~ ~ ~ ~ ~

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: