pandas基础知识,pandas 科学计数
Pandas是建立在NumPy基础上的更新软件包,它提供了数据框架的有效实现。
数据帧本质上是具有附加行和列标签的多维数组,通常具有异构类型和/或缺失数据。
除了为标记数据提供方便的存储接口,Pandas还实现了许多数据库框架和电子表格程序所熟悉的强大的数据操作。
熊猫有两种类型:系列和数据框架。
Pandas系列使用NumPy数组创建系列使用字典创建系列使用索引创建数据帧创建数据帧重命名列数据帧(数据列)获取列名从数据帧向数据帧添加新列根据行索引选项卡删除列,根据行索引位置选择行,选择行条件,选择处理缺失数据的方法,检查缺失值,删除缺失值,填充缺失值,替换缺失值,分组方式, 简单聚合、应用多个聚合函数、Groupby、重置索引、合并、连接数据帧串联合并合并其他操作计算列值频率列排序函数应用于数据帧GUI界面的所有元素播放熊猫安装Bamboolib验证Bamboolib安装
系列
创建系列。使用下面的列表、numpy数组或字典将其转换为序列。
label=[w , x , y , z]
list=[10,20,30,40]
array=np.array([10,20,30,40])
dict={w:10, x:20, y:30, z:40}pd。系列(数据=列表)
警察。系列(数据=列表,索引=标签)
警察。系列(列表,标签)
使用NumPy数组创建系列pd。系列(数组)
警察。系列(数组,标签)
创建系列pd。带字典的系列(字典)
使用索引teama=pd.series ([1,2,3,4],index=[DK , FPX , HLE , RNG])
数据帧
create data frame data=PD . data frame(randn(10,5),index= A B C D E F G H I J 。Split(),columns=得分1得分2得分3得分4 S核心5 。拆分())
来自numpy.random import randn
种子(1)
数据=pd。DataFrame(randn(10,5),index=A B C D E F G H I J 。split(),columns= score 1 score 2 score 3 score 4 score 5 。拆分())
重命名列数据。rename(columns { score 1 : score 6 , score2: score7})
框架(数据列)数据[得分3]
数据[[得分2 ,得分1]]
获取列名data.columns.tolist()
向DataFrame添加新列data[ score 6 ]=data[ score 1 ]data[ score 2 ]。
从DataFrame中删除列data.drop (score 6 ,axis=1)。
#axis=1删除行,axis=1删除列。
根据行选项卡,选择行data.loc[F] f]。
根据行索引位置,选择行data.iloc[2]
选择条件数据0.5。
数据[数据0.5]
处理数据缺失的方法生成数据。
数据=pd。DataFrame({Faker:[1,2,np.nan,4,6,7,2,np.nan],
ShowMaker:[5,np.nan,np.nan,5,7,2,4,5],
Chovy:[1,2,3,4,5,6,7,8]})
检查缺少的值data.isna()。总和()
删除缺少的值data.dropna()
缺少值data.fillna(值=0)。
fillna函数的方法参数可用于根据列中的上一个或下一个值填充缺失值。
Method=ffill:用以前的非缺失值填充缺失值。
Method=bfill:用下一个非缺失值填充缺失值。
替换值替换功能可用于替换数据帧中的值。
数据替换(5,25)
Groupby方法生成数据
data={ID:[001 , 001 , 003 , 003 , 005],
name:[ClearLove , Kid , Zz1tai , Cool , Happy ,简自豪],
team:[EDG , IG , RNG , NB , NB , RNG],
kiss:[2005,3245,1245,8765,2332,4332]}
数据=pd。数据帧(数据)
简单聚合data.groupby ("id ")。平均值()
应用多个聚合函数数据[[id , team , kiss]]。groupby ([id , team])。agg ([均值,计数])
Groupby重置索引数据[[id , team , kiss]]。分组依据([id ,团队])。平均值()。重置索引()
合并和连接DataFrame以生成数据。
数据1=pd。DataFrame({region:[LPL , LCK],
团队:[RNG , DK],
姓名:[小虎, ShowMaker]},
index=[0,1])
data2=pd。DataFrame({region:[LPL , LCK],
团队:[FPX , T1],
name:[Donib , Faker]},
index=[2,3])
数据3=pd。DataFrame({region:[LPL , LCK],
团队:[EDG , HLE],
name:[Viper , Chovy]},
index=[4,5])
data4=pd。DataFrame({region:[LPL , LCK],
team:[WE , GEN],
name:[ELK , BBD]},
index=[6,7])
Concat系列系列基本上通过行或列(轴=0或1)连接数据帧。我们还需要确保数据帧的大小相同。
PD . concat([数据1,数据2,数据3,数据4])
PD . concat([数据1,数据2,数据3,数据4],轴=1)
Merge就像SQL表,python中的merge函数允许我们合并数据框。
pd.merge(data1,data2,how=outer ,on=region )
其他操作生成数据。
ata={ID:[001 , 001 , 003 , 003 , 005],
name:[ClearLove , Kid , Zz1tai , Cool , Happy ,简自豪],
team:[EDG , IG , RNG , NB , NB , RNG],
kiss:[1000,1000,1500,2000,2000,3000]}
数据=pd。数据帧(数据)
计算列值频率数据[kiss]。value _ countries()
列data.sort _ values (by= name )
该函数适用于所有DataFrame元素数据[kiss]。应用(x:x * 2)
GUI玩熊猫我们在做数据处理的时候,有没有感觉每次都要做很多重复的事情,写无数遍代码?为什么不开发一个数据处理GUI呢?
我们的理念是“不用编码就能学习和使用熊猫”。这个想法一开始可能很简单,但我发现Bamboolib在数据探索和数据清理方面做得更多。
安装Bamboolibpip
验证Bamboolib将导入bamboolib安装为bam
进口熊猫作为pd
data=PD . read _ CSV(bam . titan _ CSV)
具体怎么用数据,可以自己试试,很容易上手。
转载请联系作者获得授权,否则将追究法律责任。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。