Python中的pandas,python中pandas用法
1.pandas介绍
Python数据科学在过去几年里爆发了,熊猫已经成为生态系统的关键。当数据科学家得到一个数据集时,他们会用熊猫来探索它。它是数据处理和分析的终极工具。
熊猫在大数据方面不能得到很好的应用,因为它是为单机可以处理的小数据集而设计的。许多数据科学家将熊猫用于职业培训、偏好项目和小型数据任务。
2.Koalas介绍
Apache Spark已经成为处理大数据的事实标准。当他们使用非常大的数据集时,他们必须迁移到PySpark以利用Spark,或者缩减数据采样以使用pandas。
现在有了考拉,数据科学家可以从单台机器迁移到分布式环境,而无需学习新的框架。正如你在下面看到的,你可以用考拉在Spark上扩展你的熊猫代码,只需要替换一个包。
参考文档:
KOS:让熊猫轻松切换Apache Spark,大规模应用于大数据。
转载于:https://www.cnblogs.com/badboy200800/p/10796089.html
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。