spark的python开发包是什么,spark submit jar包
我编写了一个pyspark脚本,该脚本读取两个数据文件,共组然后将它们发送到弹性搜索集群。当我在本地运行该弹性搜索-
大数据文件时,一切都会正常运行(大部分情况下),我下载了org。弹性搜索。Hadoop。esoutputformat先生和org。弹性搜索。Hadoop。linkedmapwritable先生类的冲突文件,然后使用pyspark使用-罐子参数运行我的工作,并且可以看到在我的弹性搜索集群中出现的文档。
但是,当我尝试在火花群集上运行它时,出现此错误:
回溯(最近一次呼叫):
文件/root/spark/spark_test.py ,第141行,在
conf=es_write_conf
文件"/root/spark/python/py spark/rdd。py”,第1302行,在saveAsNewAPIHadoopFile中
keyConverter、valueConverter、jconf)
__呼叫_ _中的文件/root/spark/python/lib/py4j-0。8 .2 .1-src。zip/py4j/Java _ gateway。py ,第538行
文件"/root/spark/python/lib/py4j-0。8 .2 .1-src。zip/py4j/protocol。py”,第300行,在获取_返回_值中
py4j.protocol.Py4JJavaError:调用z:org。阿帕奇。火花。API。python。python DD。saveasnewapihadoop文件时出错。
:Java。郎。classnotfoundexception:org。弹性搜索。Hadoop。linkedmapwritable先生
位于Java。网。URL类加载器$1。运行(URL类加载器。Java:366)
位于Java。网。URL类加载器$1。运行(URL类加载器。Java:355)
在爪哇。安全。门禁控制器。特权(原生方法)
位于Java。网。URL类加载器。查找类(URL类加载器。Java:354)
位于Java。郎。类别载入器。加载类(类加载器。Java:425)
位于Java。郎。类别载入器。加载类(类加载器。Java:358)
位于java.lang.Class.forName0(本机方法)
位于Java。郎。班级。对于名称(类。Java:274)
位于org.apache.spark.util.Utils$ .classForName(Utils.scala:157)
在org。阿帕奇。火花。API。python。python DD $ $ anon fun $ getkey值类型$ 1 $ $ anon fun $ apply $ 9。应用(python DD。Scala:611)
在org。阿帕奇。火花。API。python。python DD $ $ anon fun $ getkey值类型$ 1 $ $ anon fun $ apply $ 9。应用(python DD。Scala:610)
在斯卡拉.Option.map(选项。斯卡拉:145)
位于org。阿帕奇。火花。API。python。python DD $ $ anon fun $ getKeyValueTypes $ 1。应用(python DD。Scala:610)
在org。阿帕奇。火花。API。python。python DD $ $ anon fun $ getKeyValueTypes $ 1。应用(python DD。Scala:609)
在斯卡拉.选项。平面图(选项。Scala:170)
位于org。阿帕奇。火花。API。python。python DD $ .getKeyValueTypes(python rdd。Scala:609)
位于org。阿帕奇。火花。API。python。python DD $ .saveasnewapi Hadoop文件(python rdd。Scala:701)
位于org。阿帕奇。火花。API。python。python DD。saveasnewapihadoop文件(python rdd。Scala)
位于星期日反思。nativemethodaccessorimpl。调用0(本机方法)
位于星期日反思。nativemethodaccessorimpl。调用(nativemethodaccessorimpl。Java:57)
位于星期日反思。delegatingmethodaccessorimpl。调用(delegatingmethodaccessorimpl。Java:43)
位于Java。郎。反思。方法。调用(方法。Java:606)
位于py4j。反思。方法调用程序。调用(方法调用程序。Java:231)
位于py4j。反思。反射引擎。调用(反射引擎。Java:379)
在py4j .网关。调用(网关。Java:259)
位于py4j。命令。抽象命令。调用方法(抽象命令。Java:133)
位于py4j。命令。呼叫指挥部。执行(调用命令。Java:79)
在py4j .网关连接。运行(网关连接。Java:207)
位于Java。郎。线程。运行(线程。Java:745)
在我看来,这很清楚:弹性搜索-
大数据工人无法使用广口瓶;问题是:如何将其与应用程序一起发送?我可以将其sc.addPyFile用于大蟒依赖项,但不能与震动一起使用,并且使用-罐子参数火花-
使服从也无济于事。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。