Python数据分析处理,python文本分析和提取

  Python数据分析处理,python文本分析和提取

  在的第一篇博文中

  目录

  前提摘要

  要求

  思考

  密码

  运行结果

  分析

  1)读取文件

  2)读取数据

  3)数据整理

  4)正则表达式匹配和重复数据删除

  6)导出并保存数据。

  先决条件python2.0有不能直接读取中文路径的问题,需要再写一个函数。2018年Python3.0也不能直接读。

  现在发现python3.0可以直接读取中文路径。

  你需要带或者创建几个txt文件,最好在里面写几个数据(姓名,手机号,地址)。

  写代码的时候,最好自己定几个要求,明确目的。

  你需要读取对应目录路径的所有对应文件,逐行读出每个对应txt文件的记录。使用正则表达式获取每一行的手机号,并将手机号存储在excel中。想法1)读取文件。

  2)读取数据

  3)数据整理

  4)正则表达式匹配

  5)重复数据删除

  6)导出并保存数据。

  代码导入全球

  进口re

  导入xlwt

  filearray=[]

  数据=[]

  电话=[]

  Filelocation=glob.glob(r 教室培训/*。txt’)

  打印(文件位置)

  对于范围内的I(len(file location)):

  file=open(filelocation[i])

  file_data=file.readlines()

  data.append(文件数据)

  打印(数据)

  combine_data=sum(data,[])

  打印(合并数据)

  对于combine_data中的:

  data1=re.search(r[0-9]{11} ,a)

  phone.append(data1[0])

  phone=list(set(phone))

  打印(电话)

  打印(len(电话))

  #保存到excel

  f=xlwt。工作簿(“编码=utf-8”)

  sheet1=f.add_sheet(sheet1 ,cell_overwrite_ok=True)

  对于范围内的I(len(电话)):

  sheet1.write(i,0,phone[i])

  f.save(电话号码. xls )

  运行结果

  编辑

  会生成一个excel文件。

  编辑

  编辑

  分析导入全球

  进口re

  导入xlwt

  Globe用于定位文件,re正则表达式,xlwt用于excel1)读取文件file location=glob . glob(r classroom training/*。txt’)

  指定目录中的所有txt文件2)读取范围内I的数据(len(filelocation)):

  file=open(filelocation[i])

  file_data=file.readlines()

  data.append(文件数据)

  打印(数据)

  循环读取路径下的txt文件,按顺序读取文件。

  打开每个周期对应的文件。

  逐行读出每个周期的txt文件数据。

  使用append()方法将每一行数据添加到数据列表中。

  输出,可以看到几个txt文件数据以word列的形式存储在同一个列表中。3)数据整理combine_data=sum(data,[])

  将列表合并成一个列表4)正则表达式匹配加重复数据删除打印(combine_data)

  对于combine_data中的:

  data1=re.search(r[0-9]{11} ,a)

  phone.append(data1[0])

  phone=list(set(phone))

  打印(电话)

  打印(len(电话))

  Set()函数:无序重复数据删除,创建一组无序的不重复元素。

  6)导出并保存数据#并将其保存在excel中

  f=xlwt。工作簿(“编码=utf-8”)

  sheet1=f.add_sheet(sheet1 ,cell_overwrite_ok=True)

  对于范围内的I(len(电话)):

  sheet1.write(i,0,phone[i])

  f.save(电话号码. xls )

  Workbook(encoding=utf-8 ):设置工作簿的编码。

  Add _ sheet (sheet1 ,cell _ overwrite _ ok=true):创建相应的工作表。

  Write(x,y,z):参数对应行、列和值。

  爱菠萝的博主陈峰原创作品。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 2020年高考成绩分布表,2020年高考成绩统计,数据分析2020年全国各省高考成绩分布情况
  • ,,python实现数据分析与建模
  • python3 数据分析,python数据分析课堂
  • 《数据思维》,数据分析的思维导图
  • python数据分析就业方向,python数据分析毕业论文
  • python数据分析数据清洗,python中数据清洗
  • 基于Python的数据可视化,python数据分析及可视化处理的第三方库
  • 利用python进行数据分析豆瓣,python数据分析基础和利用python进行数据分析
  • python数据分析数据清洗,用python进行数据清洗
  • python对excel表格数据的统计和分析,python进行excel数据分析
  • 从零开始学Python数据分析与挖掘,自学python数据分析
  • python数据分析结构思维导图,python组合数据类型思维导图
  • 关联规则分析案例,关联规则数据分析题,关联规则的实际案例数据
  • 数据分析与商业数据分析,120个Excel商业数据分析实战案例
  • python数据分析excel读写,python 读取excel数据
  • 留言与评论(共有 条评论)
       
    验证码: