均值方差组合模型,方差分析模型的优缺点,简述均值方差模型
另一方面,在需求分析中,LDA主题模型的最优主题数可以用混淆度来衡量,但论文已经证明了用混淆度来确定最优主题,但实际上并不适用。有没有办法计算出最佳的题目数量?答案是肯定的。许多论文使用主题方差来确定主题的最佳数量。本文的目的是根据主题的方差得到最佳主题数。
2.主题差异1。KL散度的相对熵,也称为Kullback-Leibler散度,有两种概率分布。
2.主题词方差的主题词方差,即主题词概率分布之间的方差程度。计算主题方差的常用公式如下。
T i T_i Ti代表提取的话题,k代表提取的话题数,代表“话题-词”概率分布归一化后的平均值。KL(t_Iti)表示代理之间的相似度。题目的方差越大,题目之间的区分度越高,说明可以确定最佳的题目数量。
第三,通过话题的方差来确定最佳话题数。本文使用gensim软件包构建LDA话题模型,使用matplotlib绘制不同话题数的话题方差。
1、完整代码importnumpyasnpimportscipyimportmatplotlib。pyplotappltfromgensictionaryfromgensimportcorporate fromgensim yfromgensim or ldamodeldefvar _ show(word com=None,wordname=None,Top=20):dictionary=dictionary(wordcom)生成字典bow=[dictionary . doc 2 bow]comment)for come in wordcom # Ford # fomtoprange 1):var=d=0 model=LDAmodel)corpus=bow,id2word=dictionary, Num_topics=k)构建LDA主题模型topics _ terms=model . state . get _ lambda(topics _ terms _ proba=NP . apply _ alone)主题分布用于计算fortinrange(k) : for c in range(t,k):var=scipy . stats . entropy)topics _ terms 2)vars . append)var _ STD)# top range 1)、vars,Color= green )PLT . scatter(list)(rangt)Color= red )PLT . x top range 1()(PLT
【真实,世界,["Python,yyds"],【自然语言处理,有趣】
2.结果
如图,六个主题和七个主题可以选作最佳主题数,这当然是少之又少。得到主题方差后,就可以计算混淆度主题方差的标准化。笔者看了文献后认为,用混淆度——主题方差标准化来衡量最佳主题可能更有效,可以自行实现,也相对简单。
参考文献:[1]qkdwd,dddwdm。科技信息分析中LDA主题模型最佳主题数确定方法的研究[J].现代图书馆信息技术,2016(9) :9。
[2]以cnki文献为例研究QXD CDQ、严寒、LDA 3354最佳主题数的选取方法[J]。统计与决策,2020(16) :5。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。