如何用python挖掘数据,python如何进行数据挖掘

  如何用python挖掘数据,python如何进行数据挖掘

  一、分析方法和流程

  基于JD.COM商城“美的”热水器的文本评论数据,进行建模分析。本文通过基本的预处理和分词,建立LDA话题模型,实现了对文本评论数据的倾向性判断和信息挖掘分析。

  (1)使用爬虫收集数据(由于最近比较忙,空了就附上爬虫代码,暂时用书中提供的数据建模)。原文注释数据如下

  提取带有品牌“Beauty”的评论列表,保存为文本文件。代码如下所示

  (2)基础数据处理,包括数据预处理、中文分词、停用词过滤等操作。

  (2.1)文本重复数据删除。去掉一些没有价值的数据比如自动好评数据,重复评论等。大部分文本去重都是基于文本之间的相似度,包括编辑距离去重、simhash算法去重等。会让我们删除一些类似的表述,造成误删。本文采用比较删节的方法,尽量保留有用的评论。代码如下所示

  (2.2)文本切分,即将连续的词序列按照一定的规范重新组合成词序列的过程。分词的结果对后续算法影响很大。本文采用街霸分词对文档中的评论数据进行中文分词。

  (3)分析评论数据。

  分析情绪倾向,将评论数据分为正面、负面、中性。选取正负两组来构建和分析词义网络。

  二,LDA主题模型

  1.型号介绍:

  2.模型实现:

  正文分为两部分,包括正面评价和负面评价。这里使用COSTCM6中的情感分析进行机器分类,所以得到的数据要删除分数前缀,统一编码后再删除分数。代码如下所示

  划分密级文件,代码如下

  分词后,建立LDA模型,

  LDA话题分析后,评论被分组为三个话题,每个话题生成10个最有可能的词和对应的概率。结果如下

  从美的热水器推崇的三个主题特征词来看,主题1中的高频专证非常好,送电快,加热快,速度快,服务优等。反映JD.COM送货快,服务好,美的热水器升温快。主题2的高频证词是价格、东西、价值,主要体现热水器不错,价格合适,值得购买。主题3的高频词是售后、师傅、上门安装,体现了师傅在JD.COM的售后服务和上门安装。

  在差评的三个潜在主题中,可以看出主题1主要是安装、服务、元等。反映了美国热水器安装费高,售后服务差;2.主题是“不过,有几分,还行”等情绪词;3主题是没有,但是,自我等。反映热水器本身的安装等。

  Ps:最后附上word2vec的用法。

  对于要分析的语料库,执行分词。这里直接使用分词后的评论数据。见上面的分词代码。使用word2vec训练模型。代码如下:

  结果是“良好”和“正常”之间的余弦距离y2

  以及最接近“安装”余弦的10个单词

  当然也可以输出指定单词的单词向量。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: