python如何查找程序中关键词,Python关键词提取

  python如何查找程序中关键词,Python关键词提取

  

  简单的关键词提取

  内容关键词的提取分为三个步骤:

  (1)分词

  (2)去停字。

  (3)关键词提取

  分词的方法有很多种,这里我选择常用的结巴分词;当我去停用字词时,我使用了停用字词表。具体代码如下:

  importjieba

  importjieba.analyse

  #第一步:分词,这里用的是口吃分词全模式。

  Text= 新闻,又称新闻,是指报纸、电台、电视台和互联网经常用来记录社会、传播信息、反映时代的一种文体,\

  它的特点是真实性、及时性、简洁性、可读性和准确性。\

  新闻的概念有广义和狭义之分。\

  从广义上讲,报纸、广播、电视上发表的除评论、文章以外的常见文本,都属于新闻,包括新闻、通讯、特写、小品等。

  (有些在功能列表中包含了草图)等等。\

  狭义的新闻仅指新闻,即运用概括性的叙述方法和简洁的文字,快速、及时地报道国内外最新的、有价值的事实。\

  新闻也分公开新闻和八卦新闻。在结构上,每条新闻一般包括标题、引言、正文、背景、结论五个部分。\

  前三个是主要部分,后两个是辅助部分。写作以记叙文为主,有时伴有讨论、描述、评论等。

  fenci_text=jieba.cut(text)

  #print(/)。join(fenci_text))

  #第二步:停止使用单词

  #这里有一篇文章,里面有一个要改变的文件存储,一个文件存储停用列表,然后和停用列表里的单词进行比较,删除相同的单词,最后把结果存储在一个文件里。

  停用字词={}。from keys([line . rst rip()for lineinopen( stop words . txt )))

  final=

  forwordinfenci_text:

  ifwordnotinstopwords:

  如果(字!=。还有单词!=,):

  final=final 单词

  打印(最终)

  #第三步:提取关键词

  a=jieba . analyse . extract _ tags(text,topK=5,withWeight=True,allowPOS=())

  b=jieba . analyse . extract _ tags(text,topK=6,allowPOS=())

  打印(一份)

  打印(b)

  #text是要提取的文本

  #topK:返回几个TF/IDF权重关键字,默认值为20。

  # withweight3360是否一起返回关键字权重值,默认值为False。

  #allowPOS:只包含指定词性的词,默认值为null,即不进行过滤。运行结果如下:

  新闻,又称新闻,是指报纸、广播电台、电视台和互联网经常用来记录社会、传播信息、反映时代的一种文体。

  新闻具有真实性、时效性、简洁性、可读性和准确性等特征,其概念有广义和狭义之分。广义而言,出版除外。

  报纸、广播电视上的评论和专题文章之外的常用文字属于新闻,包括新闻、时事通讯、特写、小品等。

  (有的在特写中包含速写)等等,而狭义的新闻仅指新闻这种以一般叙事方式的简洁文本。

  及时报道国内外最新的、有价值的事实新闻,也分为公共新闻和八卦新闻。

  由总标题、引言、正文、背景和结论五部分组成。前三个是主要部分,后两个是辅助部分,以文字叙述为主。

  有时交谈、描述、评论等。

  [(新闻,0.4804811569680808),(速写,0.2111071253131),(新闻,0.2111107507

  特写,0.2002362345272729),(狭义,)]58646.76767676761

  [新闻,素描,新闻,特写,狭义,广义]很多python培训视频都是在流行的IT软件开发工作室。欢迎在线学习!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: