python nlp语义分析,基于python的智能文本分析pdf
- 构建停用词表- 分词时自定义分词词典- 对每行文本分词,去掉单字,数字,去掉停用词- 构造词典,为每个出现在语料库中的词分配了一个独一的整数编号,此操作收集了单词计数及其他相关统计信息- 文本向量化,即把分词结果变成数字,原理是词袋模型- lda模型,num_topics设置主题的个数- 打印所有主题,每个主题显示5个词
#!/usr/jqdbmh/python #-*-编码:utf-8-*- @作者:@联系人:@时间:@context:python nlp系列-隐含有魅力的龙猫分布(LDA)做主题内容发现(中文)构建停用词表分词时自定义分词词典对每行文本分词,去掉单字,数字,去掉停用词构造词典,为每个出现在语料库中的词分配了一个独一的整数编号,此操作收集了单词计数及其他相关统计信息文本向量化,即把分词结果变成数字,原理是词袋模型皱胃向左移模型,主题数量设置主题的个数打印所有主题,每个主题显示5个词从根西姆导入语料库,modelsimport jieba.posseg as jp,jiebatexts=open(data.txt ,encoding=utf-8 ,errors=ignore ).阅读()。拆分( \n)#构建停用词表def get _ custom _ stop words(stop _ words _ file):with open(stop _ words _ file,编码= utf-8 )as f:stop words=f . read()stop words _ list=stop words。split( \ n )custom _ stop words _ list=[I for I in stop words _ list]return custom _ stop words _ list stop _ words _ file= stop words _ LDA。txt stop words=get _ custom _ stop words(stop words _ file)#分词时自定义分词词典fenci _ name=open( fenci _ name。txt ,encoding=utf-8 ,errors=ignore ).阅读()。fenci _ name:解霸。add _ word(line)#对每行文本分词,去掉单字,数字,去掉停用词words _ ls=[]用于文本中的正文:words=[word。jp中的逐字逐句。如果len(word)则剪切(text)。word)1和word。词。是digit()!=True和word.word不在停用字词中] words_ls.append(words)#构造词典,为每个出现在语料库中的词分配了一个独一的整数编号,此操作收集了单词计数及其他相关统计信息字典=语料库 Dictionary(words _ ls)# print(Dictionary)# print(Dictionary。令牌2 id) 打印(字典)字典(950个唯一标记:[Chan , Eason , Yik ,顺,人物].)语料库中有950个不同的单词打印(字典。token 2 id){ Chan :0, Eason: 1, Yik: 2, fzdxbw: 948,高音: 949} 查看单词和编号之间的映射关系# 文本向量化,即把分词结果变成数字,原理是词袋模型语料库=【词典。doc 2 bow(单词)for words _ ls中的单词]# lda模型,主题数量设置主题的个数LDA=模特。LDA模型。LDA模型(corpus=corpus,id2word=dictionary,num_topics=6)#打印所有主题,每个主题显示5个词对于lda.print_topics(字数=5)中的主题:打印(主题)结果:
历史中提交的图片或压缩文件
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。