python 筛选excel某一特定数据,python读取excel数据
原标题:就懂点EXCEL!教你使用Python进行数据过滤(第1部分)
序
不用我告诉大家Python的数据清理功能有多强大。几行代码就可以清理一个凌乱的表格。但是python不好上手。毕竟理解和掌握编程语言需要付出很多努力,所以很多朋友都跌出了python的门。今天给大家一些干货,教大家如何使用python过滤EXCEL数据,让大家快速上手python,领略python数据分析的魅力。
数据源
我们首先需要使用一个EXCEL样本文件。在这里,我选择了一个电商订单列表,数据已经脱敏:
EXCEL筛选
如果在EXCEL中筛选,我们一般的方法是使用EXCEL自带的筛选功能,在弹出的筛选界面中用鼠标勾选。例如,我们希望筛选订单日期为2010年且订单级别为高级的订单:
像以上的筛选需求,都可以在EXCEL中实现。当然,除了这种方法,我们也可以通过其他工具来实现。今天我就来教大家用ETL python的组合方法来实现。这两个工具在数据清理方面非常强大。听到python不要临阵退缩。下面这个教程简单易懂,即使是孤独的河马也能很快上手。在教学之前,我们首先要使用一个强大的ETL工具:智能分析。
加载数据
由于智能分析的ETL是在网页上处理的,我们首先要做的就是将本地的数据源导入到智能分析平台中,然后在智能分析数据连接的界面中就可以快速导入数据源了。除了本地数据文件,Smart Analytics还支持mysql、阿里云等关系数据库的连接。打开ETL界面,将关系数据源的组件拖入显示区,根据存储路径找到您的数据源:
右键单击关系数据源的“查看输出”,我们可以预览数据源的输出效果:
条件过滤
当数据连接完成后,您可以使用智能分析ETL附带的python脚本以各种方式处理数据。首先,我们将python组件拖到中间的显示区域,并将它们与上面的关系数据源连接起来:
点击python的输入框查看。你可以看到这里的输入框和pycharm等软件的输入框基本相同。只要熟悉python,就能轻松上手。而且系统已经提前录入了一些脚本。这些代码是系统默认提供的,不需要自己写。想得很周到。可以看到,事先写好的脚本主要调用了库numpy和pandas,并定义了函数:
根据上面提到的要求,我们的目的主要是筛选订单日期和订单等级两个字段。首先,我们定义两个变量cond和cond1。cond在这里调用熊猫的pd.to_datetime()函数,这是熊猫的时间处理函数。由dt.year过滤的结果是该年等于2010年。接下来,cond1要筛选的条件是column4=Advanced,因为这两个条件是and。写完这两个脚本,我们需要把这两个条件联系起来。
编写完脚本后,单击OK。最后,我们来看看python脚本执行后的效果。第二列中的订单日期显示为2010年,订单级别显示为高级。只需写3行代码,我们的筛选需求就实现了:
下次预览
本文从Excel筛选的角度介绍简单的应用,下一篇将解释更复杂的应用。让我们先来看看什么是复杂需求:
订单日期来筛选2010年的订单。
高级订单级别筛选
利润金额前10名的订单
下一章将解决以上问题,敬请关注返回搜狐查看更多。
责任编辑:
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。