python 提取文本段落,python中怎么注释掉一段
本文介绍了三种常用的python中文分词工具。有可以参考的东西,请有需要的人参考。
这三个分词工具分享到这里~
1 .街霸分词:#-*-编码:utf-8-*-
导入操作系统
导入代码
进口洁霸
Seg_list=jieba.cut(邓超,1979年出生于江西南昌,mainland China演员、电影导演、投资制作人、网络投资人。)
F1=codecs.open(D2W_LTP.txt , w )))))))F1=codecs . open( D2W _ LTP . txt , w)))
打印“/”。join (seg _ list))。
对于seg_list中的I:
F1.write(I.encode ) utf-8 ))
f1.write(str))
效果:邓超/1979/出生/出生地/江西/南昌//,中国/大陆/演员//电影/导演//投资/制片人//,互联网/投资人/
包含结缕草的分词和写入文件的形式。
值得注意的是,掩码字符编码是“Unicode”代码,unicode-utf-8用作
2.2.jqdxrk教师的NLPIR
(https://github.com/NLP国际关系团队/NLP国际关系)
这里显示的是jqdxrk老师的github地址。需要的朋友可以去老师的git领取执照。
有:日和月。
当然,详细的代码和安装包也会上传到CSDN。有兴趣的话,请看一下。仍然需要更新许可证。
对了,国内很多论文都是用这个分词工具来对比权威的r=open(text_no_seg.txt , r )。
list_senten=[]
Sentience=邓超,1979年出生于江西南昌,mainland China演员、电影导演、投资制作人、网络投资人
forIinseg(句子) :
list_Senten.append(I[0])
打印“/”。join (list _ senten))。
F1=codecs.open(D2W_LTP.txt , w )))))))F1=codecs . open( D2W _ LTP . txt , w)))
forIinseg(句子) :
f1 . write(I[0]))))))f1 . write(I[0]))))).
f1.write(str))
效果:邓超//、/1979/出生/在/江西/南昌/、/中国/大陆/男/演员//电影/导演//投资/制作/人//、/互联网/投资人/
当然NLPIR在命名实体识别上也有不错的效果:邓超nr。
、wd
1979
出生
(p
江西省ns
nctv南昌电视台
、wd
中国新闻
内陆
男性的
演员
、wn
电影
导演
、wn
投资于n
附件六
男人
、wn
互联网
投资者n. wj
3.哈佛大学LTP #-*-编码:utf-8-*-
导入操作系统
导入代码
从pyltp导入分段器
#分词
efsegmentor(句子) :
Segmentor=segmentor(#初始化实例
segment . load(LTP _ data/CWS . model)#加载模型
Words=segment.segment(句子)#分词
words_list=list(单词)
Segment.release (#版本型号
返回单词列表
F1=codecs.open(D2W_LTP.txt , w )))))))F1=codecs . open( D2W _ LTP . txt , w)))
Sentience=邓超,1979年出生于江西南昌,mainland China演员、电影导演、投资制作人、网络投资人
打印“/”。join(分段符(句子))
forIinsegmentor(句子) :
F1.write(I)).
f1.write(str))
效果:邓超//、/1979/出生/在/江西/南昌/、/中国/大陆/男/演员//电影/导演//投资/制片人//、/互联网/投资人/
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。