python用jieba对文本就行分词并统计词频,用python语言中文分词第三方库jieba
注:此文章内容均节选自充电了么创始人,CEO兼CTO纯真的大门老师的新书《分布式机器学习实战》(人工智能科技系列)[无罪门编辑][清华大学出版社]
目录自然语言处理系列十七分词工具实战Python解霸分词总结自然语言处理系列十七分词工具实战
有些分词工具是用Java、Python、C实现的,这里推荐最流行的分词工具。CRF是用C语言写的,但是可以用Python调用。HanLP是用Java写的,也可以用Python调用。IK分词和mmseg4j分词也是用Java写的,而且大多集成了搜索引擎Solr和Elasticsearch。分别解释一下这些开源的分词包。
Python的Jieba分词Jieba是目前最好的Python中文分词组件,主要有以下三个特点:
支持三种分词模式:精确模式、完整模式和搜索引擎模式。
支持繁体中文分词
自定义词典支持
[代码6.14]prefixspanjob . Scala
# jiebaimportjiebaimportjieba . posssegaspseg #词性标签importjieba.analyze as anls #关键字提取1 .导入分词
可以使用jieba.cut和jieba.cut_for_search方法进行分词。两者都是可重复发生器。可以使用for循环得到分词后的所有单词(unicode),也可以直接使用Jieba.lcut和Jieba:
Jieba.cut和jieba.lcut接受三个参数。
需要分词的字符串(unicode或UTF-8字符串、GBK字符串)。
Cut_all参数:是否使用全模式。默认值为False
HMM参数:用于控制是否使用HMM模型;默认值为True。
Jieba.cut_for_search和jieba.lcut_for_search接受两个参数。
需要分词的字符串(unicode或UTF-8字符串、GBK字符串)。
HMM参数:用于控制是否使用HMM模型;默认值为True。
请不要使用GBK字符串。可能会被错误地解码成UTF八号。
1)完整模式和精确模式
#全模式seg_list=jieba.cut(他来了上海交大,cut _ all=true(print)([全模式]: /。join)seg _ list)][全模式精确模式seg _ list=Jie cut _ all=false(print)][精确模式]:
#搜索引擎模式seg_list=jieba.cut_for_search(毕业于上海交通大学机电系,后就职于上海电气设备科学研究所()print))[搜索引擎模式]: /大学/上海交通大学/机电系),/回/进/一机部/上海/电气设备/理
HMM(隐马尔可夫模型)是一种基于概率的统计分析模型,用于描述系统的隐状态转移和隐状态表示概率。对于词典中没有收录的词,洁霸使用的是基于汉字词汇化能力的HMM模型和Viterbi算法,其一般原理如下。
有四种隐含状态,分别是词语成语、短语开头、短语中间和短语结尾。通过标记的分词训练集,得到HMM的参数,利用Viterbi算法解释测试集,得到分词结果。
#代码实现如下。Hmseg _ list=jieba.cut(他来到了网易航研大厦)。
,HMM=False) #默认精确模式并启用HMMprint ([HMM未启用]:/。join(seg _ list))【hmm未启用】:他/来到/来到/网易/杭州/研/楼#识别生词seg_list=jieba.cut(默认模式并启用hmm print([识别生词]:/。join(seg_list))【认生词】:何/赖/赖/网易/航言/公馆2。繁体中文分词
解霸还支持繁体字分词。
#繁体中文text ft_text= 人生易,老难。现在是重阳战场。黄色的花特别香。每年的秋风都没有春天那么强劲。比春天还好。万里霜。 #全模式打印([全模式]:/。join(jieba.cut(ft_text,Cut_all=True))【全模式】:命/易/神/难/老//年/年/重/杨//今/再/重/杨//战/地/黄/花/额外/香//年/一/。辽阔/河流/百万/英里/霜冻//#精确图案印刷([精确图案]:/。join(jieba.cut(ft_text,Cut_all=False))【精准模式】:人生/易/神/难老//年/年/重阳节//今天/再/重阳节//战场/黄/花/额外/香//年/一度/秋风//无/喜欢/春天//胜利搜索引擎模式打印(【搜索引擎模式]:/。join(jieba . cut _ for _ search(ft _ text))【搜索引擎模式】:命/易/神/难老//年/年/重阳//今/再/重阳//战场/黄/无/喜/春//胜/春//茫茫/江天/万/李/霜/3。添加自定义词典。
开发人员可以指定自定义词典来包含不在jieba词库中的单词。字典格式如下:
词频(可省略)词性(可省略)
例如:
创新3 i云计算5凯特琳nz#虽然洁霸有识别新词的能力,但是自己添加新词可以保证更高的准确率。1)加载到字典中
使用jieba.load_userdict(file_name)加载字典。
# file_name是文件类对象或自定义词典的路径# sample_text=周大福是创新办主任,云计算专家 # unloaded dictionary print([unloaded dictionary]: /。join(jieba.cut(sample_text)))【卸载词典】:周大福/Yes/innovation/创新总监/Ye/Yes/Cloud/Computing/Aspect/Expert #加载词典jieba . load _ user dict( user dict . txt )#加载词典后打印([加载词典后]:/。join(jieba . cut(sample _ text))[加载字典
使用add _ word (word,freq=none,tag=none)和del_word(word)动态修改程序中的字典。
Jieba.add_word(石墨烯)#添加自定义词jieba.add_word (Caitlin ,freq=42,tag=nz) #设置词频和词性jieba.del_word(自定义词)#删除自定义词并使用suggest _ freq (segment,tune
#调整词频前打印([调整词频前]: /。join(jieba.cut(如果你把它放到post中,你会得到一个错误。HMM=False))))【调整词频前】:If/放入/post/会/出错/。#调整词频jieba.suggest_freq((中,将),True)494#调整词频后打印([调整词频后]: /。join(jieba.cut(如果你把它放到post中,你会得到一个错误。HMM=False)))【调整词频后】:如果/放入/post//就会/出错/。除了分词,街霸还有词性标注、关键词提取等功能。我们将在后面的章节中逐一讨论它们。接下来自然语言处理系列十八,我们来看看Java中的HanLP分词。
这篇总结文章有相应的配套视频,其他精彩文章可以从充电了么app下载,可以获得上千篇免费的好课和文章。配套新书请参考无邪门新书:《分布式机器学习实战》(人工智能科技系列)。
【新书介绍】
055-79000(人工智能科学与技术系列)[无罪之门编辑][清华大学出版社]
新书特色:分步讲解分布式机器学习的框架和应用,包括个性化推荐算法系统、人脸识别、对话机器人等实用项目。
【新书介绍视频】
分布式机器学习实践(人工智能科技系列)新书【无罪之门】
视频特色:重点介绍新书,最新前沿技术热点分析,技术职业规划建议!听完这一课,你会对人工智能领域有一个全新的技术视野!职业发展也会有更清晰的认识!
【精品课程】
055-79000大数据人工智能AI专家级精品课程
【免费体验视频】:
人工百万年薪成长路线/从Python到最新热门技术
从Python编程入门零基础wydlc到人工智能高级实训
视频特色:本系列专家级精品课程有相应的配套书籍《分布式机器学习实战》。优秀的课程和书籍可以互补学习,大大提高了学习效率。该系列课程和书籍以分布式机器学习为核心,详细介绍了其所依赖的大数据技术。之后重点介绍了当前主流的分布式机器学习框架和算法。这一系列的课程和书籍以实战为主,最后告诉你几个工业级的系统实战项目。课程核心内容包括互联网公司大数据与人工智能、大数据算法体系架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架与神经网络算法、自然语言处理算法、工业完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)、就业/面试技巧/。
[被控公司介绍]
充电App是一个专注于上班族职业培训和充电学习的在线教育平台。
专注于专业技能的提升和学习,提高工作效率,带来经济效益!你今天充电了吗?
你收费吗,官网?
http://www.chongdianleme.com/
你要收费吗?App官网下载地址
https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app
特点如下:
【全行业岗位】——专注提升职场上班族的专业技能。
涵盖所有行业和岗位,无论你是上班族,高管,还是创业公司,都有视频和文章供你学习。其中大数据智能AI、区块链、深度学习是互联网的一线工业级实践经验。
除了学习专业技能,还有一般的职场技能,比如企业管理、股权激励与设计、职业规划、社交礼仪、沟通技巧、演讲技巧、会议技巧、邮件技巧、如何缓解工作压力、人脉等。提高自己的专业水平和各方面的综合素质。
【牛人课堂】——学习牛人的工作经验。
1.智能个性化引擎:
海量视频课程,覆盖所有行业、所有岗位,通过挖掘和分析不同行业岗位技能词的偏好,智能匹配你当前岗位最感兴趣的技能学习课程。
2.全网搜索讲座。
输入关键词搜索海量视频课程,应有尽有,总有适合你的课程。
3.讲座广播的详情
视频播放细节,除了播放当前视频,还有更多相关的视频课程和文章可以阅读,强化某个技能知识点,让你轻松成为某个领域的资深专家。
【优秀阅读】——技巧文章,趣味阅读。
1.个性化阅读引擎:
阅读上千篇文章,涵盖所有行业和岗位,通过挖掘和分析不同行业岗位的技能词偏好,智能匹配你当前岗位最感兴趣的技能学习文章。
2.阅读整个网络搜索
输入关键词搜索海量文章阅读。什么都有,总有你感兴趣的技能学习文章。
【机器人老师】——趣味学习的个人提升
基于搜索引擎和智能深度学习训练,打造一个更懂你的机器人老师,用自然语言和机器人老师聊天学习,娱乐,高效学习,快乐生活。
【短期课程】——高效学习知识
海量短课程可以满足你的时间碎片化学习,快速提升某个技能知识点。
上一篇:自然语言处理系列16,中文分词,Word S
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。