python如何查找程序中关键词,Python关键词提取
简单的关键词提取
内容关键词的提取分为三个步骤:
(1)分词
(2)去停字。
(3)关键词提取
分词的方法有很多种,这里我选择常用的结巴分词;当我去停用字词时,我使用了停用字词表。具体代码如下:
importjieba
importjieba.analyse
#第一步:分词,这里用的是口吃分词全模式。
Text= 新闻,又称新闻,是指报纸、电台、电视台和互联网经常用来记录社会、传播信息、反映时代的一种文体,\
它的特点是真实性、及时性、简洁性、可读性和准确性。\
新闻的概念有广义和狭义之分。\
从广义上讲,报纸、广播、电视上发表的除评论、文章以外的常见文本,都属于新闻,包括新闻、通讯、特写、小品等。
(有些在功能列表中包含了草图)等等。\
狭义的新闻仅指新闻,即运用概括性的叙述方法和简洁的文字,快速、及时地报道国内外最新的、有价值的事实。\
新闻也分公开新闻和八卦新闻。在结构上,每条新闻一般包括标题、引言、正文、背景、结论五个部分。\
前三个是主要部分,后两个是辅助部分。写作以记叙文为主,有时伴有讨论、描述、评论等。
fenci_text=jieba.cut(text)
#print(/)。join(fenci_text))
#第二步:停止使用单词
#这里有一篇文章,里面有一个要改变的文件存储,一个文件存储停用列表,然后和停用列表里的单词进行比较,删除相同的单词,最后把结果存储在一个文件里。
停用字词={}。from keys([line . rst rip()for lineinopen( stop words . txt )))
final=
forwordinfenci_text:
ifwordnotinstopwords:
如果(字!=。还有单词!=,):
final=final 单词
打印(最终)
#第三步:提取关键词
a=jieba . analyse . extract _ tags(text,topK=5,withWeight=True,allowPOS=())
b=jieba . analyse . extract _ tags(text,topK=6,allowPOS=())
打印(一份)
打印(b)
#text是要提取的文本
#topK:返回几个TF/IDF权重关键字,默认值为20。
# withweight3360是否一起返回关键字权重值,默认值为False。
#allowPOS:只包含指定词性的词,默认值为null,即不进行过滤。运行结果如下:
新闻,又称新闻,是指报纸、广播电台、电视台和互联网经常用来记录社会、传播信息、反映时代的一种文体。
新闻具有真实性、时效性、简洁性、可读性和准确性等特征,其概念有广义和狭义之分。广义而言,出版除外。
报纸、广播电视上的评论和专题文章之外的常用文字属于新闻,包括新闻、时事通讯、特写、小品等。
(有的在特写中包含速写)等等,而狭义的新闻仅指新闻这种以一般叙事方式的简洁文本。
及时报道国内外最新的、有价值的事实新闻,也分为公共新闻和八卦新闻。
由总标题、引言、正文、背景和结论五部分组成。前三个是主要部分,后两个是辅助部分,以文字叙述为主。
有时交谈、描述、评论等。
[(新闻,0.4804811569680808),(速写,0.2111071253131),(新闻,0.2111107507
特写,0.2002362345272729),(狭义,)]58646.76767676761
[新闻,素描,新闻,特写,狭义,广义]很多python培训视频都是在流行的IT软件开发工作室。欢迎在线学习!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。