python中jieba的用法中文词语数,python中jieba的作用

  python中jieba的用法中文词语数,python中jieba的作用

  jieba库是一个优秀的Python第三方中文分词库。杰霸支持三种分词模式:精准模式、全模式、搜索引擎模式。以下是三种模式的特点。

  精确模式:尽量把句子分割得最精确,没有冗余数据,适合文本分析。

  全模式:把一个句子中所有可能是词的词都切掉,速度快,但是有冗余数据。

  搜索引擎模式:在精确模式的基础上,对长词进行再次切分。

  一、洁霸库的安装因为洁霸是第三方库,我们需要在本地安装。

  在Windows下,使用命令安装:在联网状态下,在命令行输入pip install jieba进行安装,安装完成后会提示安装成功。

  在pyCharm中安装:打开设置,搜索Project Interpreter,在右边窗口选择编号,在搜索框中点击搜索jieba,点击安装。

  二。洁霸#-*-编码三种模式的使用:UTF-8-*-导入jiebaseg _ str=好好学习,天天向上。打印(/)。join(jieba . lcut(seg _ str))# reduced模式,返回结果print (/)。join (jieba.lcut (seg _ str,cut_all=True)) #完整模式,使用 cut_all=True)

  三、街霸分词简单应用要求:用街霸分词对一段文字进行分词,统计出现频率最高的词。这里以三国演义为例。

  #-*-编码:UTF-8-*-导入jiebatxt=open(三国演义. txt , r ,编码= UTF-8 )。read () words=jieba.lcut (TXT) #使用精确模式分割文本。counts={} #以关键字-值对的形式存储单词及其在word中的出现次数:如果len (word)==1: #单个单词不计算在内继续else:counts[word]=counts . get(word,0) 1 #遍历所有单词,添加1个items=list(counts . items())items . Sort(key=lambda x:x[1],Reverse=True) #根据单词在范围(3)中出现的次数从大到小对单词进行排序:word,count=items[I]print({ 0:5 } { 0格式(字数,计数))统计结果:

  你可以找到任何文本文档,或者你可以去https://github.com/coderjas/python-quick下载上面例子中的文档。

  四。扩展:英语单词的统计。上面的例子统计了中文文档中最多的单词。然后我们来统计一下在一篇英文文档中出现频率最高的单词。原理同上

  # -*-编码:utf-8-*-def get _ text():txt=open( 1 . txt , r ,编码=UTF-8 )。read() txt=txt.lower() for ch in !#$%()* ,-./:=?@[\ \]_ { } ~ :txt=txt . Replace(ch, )#用空格替换文本中的特殊字符return txt file _ txt=Get _ text()words=file _ txt . split()#若要拆分字符串,请获取单词列表countries={ } for word in words:if len(word)==1:continue else:countries[word]=countries . Get(word,0)1 items=list(counts . items())items . sort(key=lambda x:x[1],reverse=true) for I in格式

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: