自然语言处理提取关键词,自然语言处理和文本挖掘
本文主要介绍自然语言处理中的文本热词提取,就是通过杰霸的posseg模块,对一段文本进行切分,赋予不同的字段不同的含义,然后按频率计算出热词,有需要的朋友可以参考一下。
00-1010代码数据结果:主要就是通过jieba的posseg模块将一段文字分段并赋予不同字段不同意思。然后通过频率计算出热频词
数据放在文章里,不用花积分下载。
**
目录
鸟儿想要飞得高,它们必须先展开翅膀
# TODO转发:Jhon
将jieba.posseg作为psg导入
Text=open(数据/冬奥会评论区的数据。 txt , r ,编码= UTF-8 )。阅读()
text_psg=psg.lcut(text)
# TODO杨过nr
打印(标称字符标记为:\ n , 。加入([{} {} 。format (w,t) for w,t in text _ PSG]))
Name_counts={} #定义用于存储单词及其出现次数的词典。
对于text_psg:中的word_pair
if len(word_pair.word)==1:
继续
else:
Word _ pair.flag== NR 或word _ pair . flag== z 3360 # todoflag方法
name _ counties[word _ pair]=name _ counties . get(word _ pair,0) 1 #遍历所有单词,每出现一个对应的单词就加1。
# print (name _ counties) # {pair(叶老汉, nr): 2,Pair(威州, NR) 3360 1,Pair(叶三姐, nr): 10,}。}
item=name_counts.items()
项目=列表(项目)
# print(items)# TODO[(pair( Robinson , nr ),1),(pair(武术, nr ),825,(pair(演讲, nr ),96)]
items . Sort(key=lambda x : x[1],reverse=true) #按照单词出现的顺序进行排序。
Name_list=open(。/数据/冬奥会上名字的次数。txt , w ,编码=utf-8 )
对于范围内的I(len(items)):
name,pos=items[i][0]
计数=项目[i][1]
name_count=name : 字符串(计数)
name_list.write(name_count \n )
name_list.close()
代码里面注释的已经非常清楚,不同的可以私信我,或者在评论区打出来,看到了会及时解惑的。
**
代码
v热v我,夺冠后的齐光普又收获了金码头!此前在空中技巧混合团体赛中获得亚军。
拉多拉夫在本届冬奥会上赢得了一枚金牌和一枚银牌。
老虎口水,齐光普得了一个金一个银,还不停地抹眼泪。一个老兵不容易!
珊瑚L,在刚刚结束的自由式滑雪男子空中技巧决赛中,
啊,酒就是你。中国队选手齐光普在本届冬奥会上首次拿出了5.0难度动作。
会积极的,并且凭借出色的发挥拿到129.00分,获得金牌!这是继2006年都灵冬奥会之后。
街头简介,崇礼2月16日晚,男子自由式滑雪空中技巧决赛。
在阿克苏的九年里,他的难度5.0动作得了129分,梦里得了一枚金牌!赛后,齐光普也热泪盈眶!
啊,可能是。这也是本届冬奥会中国代表团的第七枚金牌!“我做到了,让五星红旗高高飘扬。
啊,你是,但还不够好。你本可以得更高的分数。"
刺杀,中国老将齐光普发挥出色。图/新华社
之后,在15日晚的男子资格赛中,齐光普和贾宗洋都在第一轮中表现高分。
哈卡斯,前两名直接晋级决赛,后者则高质量的重现了4.425的动作,得到了125.67分。
JJ,我,老兵贾宗阳,尽了最大努力。图/新华社
哦,我害怕。齐光普在备战的时候有一段时间心情很不好。
长期受精神压力和失眠困扰的卡卡已经克服了。
阿克苏六年,“因为有梦想,什么都不是问题。”北京冬奥会是他最大的动力。
彭浩,这些年来,戚光普获得了无数的奖项,比如世界杯冠军和世锦赛冠军……然而。
肯德基,他参加了温哥华、索契、平昌三届冬奥会。
,都未能收获奖牌,这次能获得第
数据每行逗号前是名字,逗号后的是评论内容,数据不太正统,先凑合着用,后面你就会发现有点那个味道了。
结果:
齐广璞: 79
冰墩墩: 70
苏翊鸣: 44
谷爱凌: 43
徐梦桃: 41
滑雪: 30
范可新: 15
贾宗洋: 13
高亭宇: 11
平昌: 6
滑冰: 6
世锦赛: 5
索契: 5
晋级: 4
安斯卡: 4
韩晓鹏: 4
张虹: 4
任子威: 4
小鸣: 4
温哥华: 3
元老: 3
张家口: 3
阿克萨: 3
祝贺: 3
吉祥物: 3
萨克森: 3
张杰: 3
金墩墩: 2
亚军: 2
都灵: 2
安康: 2
阿喀琉斯: 2
杨紫: 2
桂冠: 2
凌空: 2
韩聪: 2
融宝: 2
宝融宝: 2
雪容融: 2
明星: 2
苗子: 2
五星红旗: 1
最高处: 1
哈卡斯: 1
郝鹏: 1
肯德基: 1
李玉: 1
刘晨周: 1
乌克兰: 1
宝贵: 1
阿奎那: 1
梦中人: 1
周转: 1
高达: 1
斯诺克: 1
满怀希望: 1
阿森纳: 1
内存卡: 1
利利斯: 1
屠龙刀: 1
东道主: 1
马克: 1
阿基: 1
正佳: 1
天成: 1
折桂: 1
热切地: 1
齐天大圣: 1
哈萨克: 1
宝藏: 1
宝贝: 1
贺卡: 1
谢幕: 1
范迪安: 1
雪容融: 1
依旧: 1
舒斯: 1
施尼: 1
曼德尔: 1
肥墩墩: 1
圣保罗: 1
荣幸之至: 1
熊猫: 1
滚滚: 1
仰泳: 1
太棒了: 1
康弘: 1
最佳: 1
大力支持: 1
小胖: 1
祝福: 1
施图拜: 1
孙琳琳: 1
张雨婷: 1
终封王: 1
褚鹏: 1
阿曼: 1
陶士文: 1
可以发现结果和前面的还是挺准的。当然还可以继续优化,也可以自己训练模型,但是训练集需要很大。我这个模型是官方的,训练模型数据1.84GB
因为文本上传太多会被判刷量,所以删除了一部分。结果是之前的,没有改变,需要文本的可以去下载。测试数据下载
到此这篇关于自然语言处理之文本热词提取的文章就介绍到这了,更多相关自然语言文本热词提取内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。