python tfidf,python中tfidfvectorizer
说明
1.TF-IDF是指如果一个词或短语在一篇文章中出现的概率很高,但在其他文章中很少出现,那么就认为它具有很好的分类能力,适合分类。
2.提取文本特征以评估单词对文档集合或语料库中的文档的重要性。
实例
deftfidf_demo():
基于tfidf方法的文本特征提取
:返回:
#1.将中文文本分成单词
Data=[这样或那样今天很残酷,明天更残酷,后天也很美好,但明天晚上肯定大部分都会死,所以大家今天不要放弃。,
我们从遥远星系看到的光是几百万年前发出的,所以当我们看到宇宙时,我们正在看它的过去。
如果你只从一个方面了解一件事,你就不会真正了解它。知道事物真正意义的秘密取决于如何把它与我们所知道的联系起来。]
data_new=[]
forsentindata:
data_new.append(cut_word(sent))
#打印(数据_新)
#2.实例化一个转换器类
transfer=tfidf vectorizer(stop _ words=[一种,因为])
#3.调用fit _变换
data _ final=transfer . fit _ transform(data _ new)
print(data_new:n ,data_final.toarray())
Print(功能名称: n ,transfer.get _ feature _ names())
ReturnNone以上是Python中Tf-idf文本特征的提取。希望对你有帮助。更多python学习方向:Python基础课程
本教程运行环境:windows7系统,Python 3.9.1,DELL G3电脑。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。