spark编程基础python,python spark数据分析

　　两种方法：使用火花-提交解释执行大蟒脚本使用大蟒解释执行大蟒脚本1.使用火花-提交解释执行大蟒脚本计算机编程语言脚本中需要在开头导入发动相关模块，调用时使用火花-提交提交，示例代码如下：

　　===========================================================

　　“”ODFlow。py 来自py spark导入spark上下文文件Dir=/tripchain 3 _ demo。txt # sc=spark context( local ， ODFlow )sc=spark context( spark://ITS-Hadoop 10:7077 ， ODFlow )lines=sc。文本文件(文件目录)# python不能直接写多行的希腊字母的第11个表达式，所以要封装在函数中def toKV(line): arr=line.split(，)t=arr[5].拆分(" "[1]).split(:) return (t[0] t[1]， arr[11]， arr[18]，1)R1=行。地图(lambda线：toKV(线)).reduceByKey(a，b: a b)#排序并且存入一个（重新分配)文件中r1.sortByKey(False).saveAsTextFile(/python test/output )===================================

　　发布命令为：

　　火花-提交\ -主spark://ITS-Hadoop 10:7077 \ od流。py 2 .使用大蟒解释执行大蟒脚本直接用大蟒执行会出现错误：

　　导入错误：没有名为pysparkImportError的模块：没有名为py4j.java_gateway的模块缺少pyspark和py4j这两个模块，这两个包在火花的安装目录里，需要在环境变量里定义PYTHONPATH，编辑~/.没有则创建或者/etc/profile文件均可

　　vi ~/.bashrc #或者sudo vi /etc/profile#添加下面这一行导出python path=$ SPARK _ HOME/python/:$ SPARK _ HOME/python/lib/py4j-0。8 .2 .1-src。zip:$ python路径#使其生效来源~/。bashrc #或者日本首藤源/etc/配置文件然后关闭终端，重新打开，用大蟒执行即可python odflow.py原文链接：http://博客。csdn。net/侯某/文章/详情/50925573

　　python odflow.py

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读