python tfidf,python中tfidfvectorizer

  python tfidf,python中tfidfvectorizer

  说明

  1.TF-IDF是指如果一个词或短语在一篇文章中出现的概率很高,但在其他文章中很少出现,那么就认为它具有很好的分类能力,适合分类。

  2.提取文本特征以评估单词对文档集合或语料库中的文档的重要性。

  实例

  deftfidf_demo():

  基于tfidf方法的文本特征提取

  :返回:

  #1.将中文文本分成单词

  Data=[这样或那样今天很残酷,明天更残酷,后天也很美好,但明天晚上肯定大部分都会死,所以大家今天不要放弃。,

  我们从遥远星系看到的光是几百万年前发出的,所以当我们看到宇宙时,我们正在看它的过去。

  如果你只从一个方面了解一件事,你就不会真正了解它。知道事物真正意义的秘密取决于如何把它与我们所知道的联系起来。]

  data_new=[]

  forsentindata:

  data_new.append(cut_word(sent))

  #打印(数据_新)

  #2.实例化一个转换器类

  transfer=tfidf vectorizer(stop _ words=[一种,因为])

  #3.调用fit _变换

  data _ final=transfer . fit _ transform(data _ new)

  print(data_new:n ,data_final.toarray())

  Print(功能名称: n ,transfer.get _ feature _ names())

  ReturnNone以上是Python中Tf-idf文本特征的提取。希望对你有帮助。更多python学习方向:Python基础课程

  本教程运行环境:windows7系统,Python 3.9.1,DELL G3电脑。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: