hadooppython入门,hadoop一般用python还是java

  hadooppython入门,hadoop一般用python还是java

  pydoop:用大蟒写大数据的数据处理

  pydoop:用大蟒写大数据的MapReducePydoop是用大蟒对大数据的数据类型的数据处理和分布式文件系统的封装。程序很小,只有500多KB。

  [周hh @ Hadoop 48 ~]$ tar-zxvf

  【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ python设置。py构建

  建设通过后,执行安装

  可以安装在系统中或安装在本地

  日本首藤安装时如果不跟参数,会导致环境变量不可用:

  【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ sudo python设置。py安装

  错误:

  运行时错误:无法确定JAVA_HOME路径

  但是该环境变量是存在的:

  【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ echo $ JAVA _ HOME

  /usr/java/jdk1.7.0打开setup.py

  自我。JAVA _ HOME=OS。getenv( JAVA _ HOME ,find _ first _ existing(/opt/sun-JDK ,/usr/lib/jvm/java-6-sun ))改为:

  自我。JAVA _ HOME=OS。getenv( JAVA _ HOME ,find _ first _ existing(/opt/sun-JDK ,/usr/lib/jvm/java-6-sun ,/usr/java/jdk1.7.0 ))再执行setup.py安装

  值错误:未设置HADOOP_HOME

  【周hh @ HADOOP 48 pydoop-0。5 .2-RC2]$ echo $ HADOOP _ HOME

  /HOME/周hh/HADOOP-1。0 .3【周hh @ HADOOP 48 pydoop-0。5 .2-RC2]$ echo $ HADOOP _ HOME

  /home/zhouhh/hadoop-1.0.3找到:

  路径=减少(列表. add__,map(glob.glob,("/opt/hadoop* ","/usr/lib/hadoop* ","/usr/local/lib/hadoop* ")

  改为:

  路径=减少(列表. add__,map(glob.glob,("/opt/hadoop* ","/usr/lib/hadoop* ","/usr/local/lib/hadoop* ","/home/zhouhh/hadoop-* "))

  …

  为了避免环境变量问题,

  如果安装到系统,应略过创建:

  【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ sudo python设置。py安装跳过构建

  或者直接装在当前用户下:

  【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ python设置。py安装用户

  或安装到指定目录:

  【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ python设置。py installhome/home/Zhu hh/pydoop

  检验是否成功:

  【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ CD测试

  【周hh @ Hadoop 48测试】$ python all _ test。pyimporterror:/usr/lib 64/lib boost _ python。所以。2:未定义符号:pyunicodeucs 4 _ fromcencodedobject

  单词计数示例

  从pydoop.pipes导入映射器、减速器、工厂、运行任务

  类单词计数映射器(映射器):

  定义映射(自身,上下文):

  words=context.getInputValue().拆分()

  对于文字中的女:

  context.emit(w, 1 )

  类WordCountReducer(减速器):

  定义减少(自身,上下文):

  s=0

  while context.nextValue():

  s=int(context.getInputValue())

  语境。发出(上下文。getinputkey(),字符串)

  运行任务(工厂(字计数映射器,字计数还原器))对简单任务,可以使用pydoop_script工具:

  定义映射器(k,正文,作者):

  对于text.split()中的单词:

  writer.emit(word,1)

  def还原剂(单词、计数、书写者):

  writer.emit(word,sum(map(int,count)))参考:

  下载:https://SourceForge。net/projects/pydoop/files

  示例地址:http://pydoop。SourceForge。net/docs/examples/index。超文本标记语言

  最新版下载:http://SourceForge。net/projects/Pydoop/files/Pydoop-0.5/Pydoop-0。5 .2-RC2。焦油。gz/下载

  主页:http://sourceforge.net/apps/mediawiki/pydoop/index.php?标题=主页

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: