python 数据匹配,python数据分析数据匹配
大家好,本文主要讲用Python进行数据过滤匹配的例子。有兴趣的同学过来看看,如果对你有帮助记得收藏。
00-1010案例一:数据筛选案例二:数据匹配接下来我们将学习两个项目案例代码,分别解决Excel常见场景中的数据筛选问题和数据匹配问题。
数据筛选要求我们从表格中筛选出合格的数据。数据匹配要求我们匹配多个表之间的相关数据。
和前面一样,要完成项目问题的代码,需要先分析数据筛选和数据匹配的需求,然后找到相应的知识点,确定代码的执行顺序,从而实现项目代码。
目录
这个案例需要我们筛选出后来者的信息来具体看看。
在[10月份的考勤统计中。xlsx]工作簿,保存了公司一百名员工的迟到信息,包括迟到时间和迟到次数.
根据公司规定,迟到45分钟以上,迟到3次以上的员工将被视为考勤不合格,扣除300%的考勤保证金。
前同事需要将筛选结果保存为【10月下旬人员信息】。xlsx]并将排序后的信息报告给领导。
那么如何用代码实现这个场景呢?
在编写代码之前,我们需要明确任务需求。
根据公司规定【10月考勤统计】中迟到超过45分钟的员工信息。xlsx]筛选出在并且迟到3次以上的。迟到的信息被打印出来,然后存储在新的工作簿【10月迟到信息。xlsx】。
代码实现:
从openpyxl导入load_workbook,workbook
#打开【10月考勤统计. xlsx】工作簿。
WB=load _ workbook(。/material/10月份出勤统计. xlsx’)
#获取活动工作表
ws=wb.active
打印(ws)
打印(ws[1])
打印(-)
#获取标题
late_header=[]
对于ws[1]:中的单元格
late_header.append(单元格.值)
打印(单元格.值)
#创建新工作簿
new_wb=工作簿()
#获取新工作簿中的工作表
new_ws=new_wb.active
#将标题写入新工作簿的工作表中
new_ws.append(晚期标题)
#从第二行开始遍历表格
对于ws.iter_rows中的行(min_row=2,values_only=True):
#拿出迟到的姓名、时间和次数
name=row[1]
时间=行[3]
数字=行[-1]
#判断你是否迟到
如果时间45和数字3:
打印({}晚{}分钟,晚{}次)。格式(名称、时间、数量))
#将迟到信息写入新工作簿的工作表中。
new_ws.append(行)
#将新工作簿保存为[十月份迟到者的信息。xlsx]
New _ wb.save(。/material/10月后来者信息. xlsx’)
运行结果:
根据任务需求,我们需要获取两部分数据:表头数据和除表头以外的所有数据。
你可能会疑惑,为什么要单独获取表头数据?
由于任务需要我们生成一个新的工作簿【十月迟到出勤信息。xlsx],新工作簿中的表头与【10月考勤统计】相同。xlsx],所以我们需要获取头部数据以供后续使用。
使用数据
我们需要在这一步实现数据筛选功能,通过分析任务需求可以总结出三个筛选条件:
1)迟到时间大于45分钟。
2)迟到次数大于3次。
3)同时满足上面两个条件。
明确了筛选条件后,就可以借助条件判断语句,比较运算符,成员运算符和逻辑运算符等Python基础知识,实现对于数据的筛选,即将上面得到的筛选条件用Python语言实现出来。
假设我们用time
来代表迟到时间,用number
代表迟到次数,那么筛选条件就可以写为:if time > 45 and number > 3:
数据输出
完成筛选后,我们需要根据实际需求将筛选结果输出到终端,或将筛选结果保存起来。
本次任务要求我们将筛选后的员工信息打印出来,并且存储到【10月迟到人员信息.xlsx】中。
如果需要获取工作簿中满足某些条件的数据,这种场景就可以被归类为数据筛选场景。
处理该场景时,可以按照获取数据,使用数据和数据输出这三个步骤来处理。
首先是获取数据,使用上节课学习过的表格读写的相关知识,根据任务需求,确定要获取的是零散的单元格,是单行/单列,还是多行/多列的数据。
数据筛选的关键落在了筛选二字上,我们可以在使用数据这一步中实现筛选功能。
在这一步,要仔细理解任务需求,明确筛选条件,然后根据实际情况,选择Python基础语法的相关知识(条件判断语句,比较运算符,成员运算符和逻辑运算符),构造筛选条件。
最后是数据输出部分,根据实际需要输出筛选结果,或将筛选结果保存起来。总结起来可以分为三类:
1)将筛选的结果存入学过的数据结构里,比如:列表,元组或字典。
2)将筛选的结果存入文件中。
3)将筛选的结果打印出来。
案例二:数据匹配
这个案例需要我们匹配两张表格中指定的迟到次数,先来看看案例场景。
现有两张表格,【10月考勤统计.xlsx】中记录了员工十月份的迟到次数数据,这份表格是公司行政手动记录的。
【迟到次数月度统计(10月更新).xlsx】中按月记录了员工每月的迟到次数数据,这份表格是由公司的考勤系统自动生成的。
两份表格中的数据可以通过工号一一对应。
现需要核对两张表格中10月迟到次数是否匹配(即两表中相同工号在十月份的迟到次数是否一致),并在终端提醒相关人员去核查不匹配的情况。
代码实现:
from openpyxl import load_workbook# 打开工作簿【10月考勤统计.xlsx】,获取活动工作表
wb = load_workbook(./material/10月考勤统计.xlsx)
ws = wb.active
# 创建迟到人员字典
info_dict = {}
# 循环读取除表头外的表格数据
for row in ws.iter_rows(min_row=2, values_only=True):
# 取出员工工号
staff_id = row[0]
# 取出迟到次数
staff_late = row[-1]
# 将信息添加入字典,字典格式为{员工工号: 迟到次数}
info_dict[staff_id] = staff_late
# 打开工作簿【迟到次数月度统计(10月更新).xlsx】,获取活动工作表
monthly_wb = load_workbook(./material/迟到次数月度统计(10月更新).xlsx)
monthly_ws = monthly_wb.active
# 循环读取出表头外的表格数据
for monthly_row in monthly_ws.iter_rows(min_row=3, max_col=13, values_only=True):
# 取出员工工号
member_id = monthly_row[0]
# 取出十一月份的迟到次数
member_late = monthly_row[-1]
# 匹配迟到次数是否相等
if member_late != info_dict[member_id]:
print(工号{}迟到情况不匹配,请核查后更新.format(member_id))
运行结果:
为什么会选择存储到字典中呢?
因为字典可以很好地体现出工号与迟到次数的对应关系,即{'工号': '迟到次数'}
。
然后把【迟到次数月度统计(10月更新).xlsx】中的迟到次数,与字典中存储的迟到次数进行匹配,再判断相同工号对应的迟到次数是否相同。
到此这篇关于用Python实现数据筛选与匹配实例的文章就介绍到这了,更多相关Python数据筛选与匹配内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。