数据分析之数据预处理,数据预处理和数据处理

  数据分析之数据预处理,数据预处理和数据处理

  任务介绍(2——6)

  任务心得1)平时学习Python的过程中缺乏实践,使得实际修改代码需要很长时间;

  2)字符编码不清晰,比如“gbk”和“utf-8”很久了,最后我们还得从头开始理解每个编码;

  3)不要为了完成任务而完成任务,就像之前的镶嵌数据集和目视判读一样。学而不思则罔,要有所收获。

  参考

  Python中的英文预处理:http://m.blog.csdn.net/article/details? id=21690911

  用Python做中文自然语言预处理:http://www.tuicool.com/articles/zaa6ny

  Python删除了停用词:http://www.do1234.com/python/jieba_fenci.html,http://www.cnblogs.com/xiaoli2018/p/4953170.html

  Python转到了stop words:文件夹中多个txt文本的https://segmentfault.com/q/1010000005994107/revision

  分步截图洁霸全应用初学者http://blog.csdn.net/jinruoyanxu/article/details/51636350

  2.excel下小写

  

  3.去掉停顿词(测试对比)

  4、5——只保留字母(测试前后)

  python:http://www.jb51.net/article/51892.htm中if _ _ name _= _ _ main _ _ 的作用

  “我简单的理解是,在添加了if _ _ name _== _ _ main _ _ 之后,当后面的代码在别处被引用时,就不会被执行,从而方便代码重用。比如我有一个脚本add.py如下:def add (x,y):返回x y if _ _ name _= _ _ main _ _ print add(3,4)。当我在别处引用这个add.py时,我不执行print

  6.去空行(测试前后)、合并多个空格为一个

  注:这一步是我在excel中完成的。重复空格方便快捷(因为数据多为空两/三格,用OK代替),去掉初始空格(excel中的修剪功能),去掉空行(数据过滤,在过滤条件中不选“空白”,然后复制等。)

  

  补充:在后续得到“词”以后,才意识到前面的预处理做得不够啊!只提取单词(筛除如“chn”等非单词)是能够做到,然而,文本中单词的三单/复数/过去式等形式,臣妾做不到啊…于是乎,就有了下面的“词干化”处理:

  Anaconda中有NLTK,但是WordNet语料库需要手动下载(难怪报错):http://blog.csdn.net/mmc2015/article/details/50939265

  Python读取一个大文件,并逐行写入另一个文件:http://blog.csdn.net/dxldehuali/article/details/51350713.

  Python3处理文件中的每个单词:http://blog.csdn.net/houyj1986/article/details/21248327

  词干化处理:

  词干处理的部分处理过程:

  去不是单词的词:

  续(去词频5的词):

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 2020年高考成绩分布表,2020年高考成绩统计,数据分析2020年全国各省高考成绩分布情况
  • ,,python实现数据分析与建模
  • python3 数据分析,python数据分析课堂
  • 《数据思维》,数据分析的思维导图
  • python数据分析就业方向,python数据分析毕业论文
  • python数据分析数据清洗,python中数据清洗
  • 基于Python的数据可视化,python数据分析及可视化处理的第三方库
  • 利用python进行数据分析豆瓣,python数据分析基础和利用python进行数据分析
  • python数据分析数据清洗,用python进行数据清洗
  • python对excel表格数据的统计和分析,python进行excel数据分析
  • 从零开始学Python数据分析与挖掘,自学python数据分析
  • python数据分析结构思维导图,python组合数据类型思维导图
  • 关联规则分析案例,关联规则数据分析题,关联规则的实际案例数据
  • 数据分析与商业数据分析,120个Excel商业数据分析实战案例
  • python数据分析excel读写,python 读取excel数据
  • 留言与评论(共有 条评论)
       
    验证码: