Python数据分析处理,python文本分析和提取
在的第一篇博文中
目录
前提摘要
要求
思考
密码
运行结果
分析
1)读取文件
2)读取数据
3)数据整理
4)正则表达式匹配和重复数据删除
6)导出并保存数据。
先决条件python2.0有不能直接读取中文路径的问题,需要再写一个函数。2018年Python3.0也不能直接读。
现在发现python3.0可以直接读取中文路径。
你需要带或者创建几个txt文件,最好在里面写几个数据(姓名,手机号,地址)。
写代码的时候,最好自己定几个要求,明确目的。
你需要读取对应目录路径的所有对应文件,逐行读出每个对应txt文件的记录。使用正则表达式获取每一行的手机号,并将手机号存储在excel中。想法1)读取文件。
2)读取数据
3)数据整理
4)正则表达式匹配
5)重复数据删除
6)导出并保存数据。
代码导入全球
进口re
导入xlwt
filearray=[]
数据=[]
电话=[]
Filelocation=glob.glob(r 教室培训/*。txt’)
打印(文件位置)
对于范围内的I(len(file location)):
file=open(filelocation[i])
file_data=file.readlines()
data.append(文件数据)
打印(数据)
combine_data=sum(data,[])
打印(合并数据)
对于combine_data中的:
data1=re.search(r[0-9]{11} ,a)
phone.append(data1[0])
phone=list(set(phone))
打印(电话)
打印(len(电话))
#保存到excel
f=xlwt。工作簿(“编码=utf-8”)
sheet1=f.add_sheet(sheet1 ,cell_overwrite_ok=True)
对于范围内的I(len(电话)):
sheet1.write(i,0,phone[i])
f.save(电话号码. xls )
运行结果
编辑
会生成一个excel文件。
编辑
编辑
分析导入全球
进口re
导入xlwt
Globe用于定位文件,re正则表达式,xlwt用于excel1)读取文件file location=glob . glob(r classroom training/*。txt’)
指定目录中的所有txt文件2)读取范围内I的数据(len(filelocation)):
file=open(filelocation[i])
file_data=file.readlines()
data.append(文件数据)
打印(数据)
循环读取路径下的txt文件,按顺序读取文件。
打开每个周期对应的文件。
逐行读出每个周期的txt文件数据。
使用append()方法将每一行数据添加到数据列表中。
输出,可以看到几个txt文件数据以word列的形式存储在同一个列表中。3)数据整理combine_data=sum(data,[])
将列表合并成一个列表4)正则表达式匹配加重复数据删除打印(combine_data)
对于combine_data中的:
data1=re.search(r[0-9]{11} ,a)
phone.append(data1[0])
phone=list(set(phone))
打印(电话)
打印(len(电话))
Set()函数:无序重复数据删除,创建一组无序的不重复元素。
6)导出并保存数据#并将其保存在excel中
f=xlwt。工作簿(“编码=utf-8”)
sheet1=f.add_sheet(sheet1 ,cell_overwrite_ok=True)
对于范围内的I(len(电话)):
sheet1.write(i,0,phone[i])
f.save(电话号码. xls )
Workbook(encoding=utf-8 ):设置工作簿的编码。
Add _ sheet (sheet1 ,cell _ overwrite _ ok=true):创建相应的工作表。
Write(x,y,z):参数对应行、列和值。
爱菠萝的博主陈峰原创作品。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。