hadooppython入门,hadoop一般用python还是java
pydoop:用大蟒写大数据的数据处理
pydoop:用大蟒写大数据的MapReducePydoop是用大蟒对大数据的数据类型的数据处理和分布式文件系统的封装。程序很小,只有500多KB。
[周hh @ Hadoop 48 ~]$ tar-zxvf
【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ python设置。py构建
建设通过后,执行安装
可以安装在系统中或安装在本地
日本首藤安装时如果不跟参数,会导致环境变量不可用:
【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ sudo python设置。py安装
错误:
运行时错误:无法确定JAVA_HOME路径
但是该环境变量是存在的:
【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ echo $ JAVA _ HOME
/usr/java/jdk1.7.0打开setup.py
自我。JAVA _ HOME=OS。getenv( JAVA _ HOME ,find _ first _ existing(/opt/sun-JDK ,/usr/lib/jvm/java-6-sun ))改为:
自我。JAVA _ HOME=OS。getenv( JAVA _ HOME ,find _ first _ existing(/opt/sun-JDK ,/usr/lib/jvm/java-6-sun ,/usr/java/jdk1.7.0 ))再执行setup.py安装
值错误:未设置HADOOP_HOME
【周hh @ HADOOP 48 pydoop-0。5 .2-RC2]$ echo $ HADOOP _ HOME
/HOME/周hh/HADOOP-1。0 .3【周hh @ HADOOP 48 pydoop-0。5 .2-RC2]$ echo $ HADOOP _ HOME
/home/zhouhh/hadoop-1.0.3找到:
路径=减少(列表. add__,map(glob.glob,("/opt/hadoop* ","/usr/lib/hadoop* ","/usr/local/lib/hadoop* ")
改为:
路径=减少(列表. add__,map(glob.glob,("/opt/hadoop* ","/usr/lib/hadoop* ","/usr/local/lib/hadoop* ","/home/zhouhh/hadoop-* "))
…
为了避免环境变量问题,
如果安装到系统,应略过创建:
【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ sudo python设置。py安装跳过构建
或者直接装在当前用户下:
【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ python设置。py安装用户
或安装到指定目录:
【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ python设置。py installhome/home/Zhu hh/pydoop
检验是否成功:
【周hh @ Hadoop 48 pydoop-0。5 .2-RC2]$ CD测试
【周hh @ Hadoop 48测试】$ python all _ test。pyimporterror:/usr/lib 64/lib boost _ python。所以。2:未定义符号:pyunicodeucs 4 _ fromcencodedobject
单词计数示例
从pydoop.pipes导入映射器、减速器、工厂、运行任务
类单词计数映射器(映射器):
定义映射(自身,上下文):
words=context.getInputValue().拆分()
对于文字中的女:
context.emit(w, 1 )
类WordCountReducer(减速器):
定义减少(自身,上下文):
s=0
while context.nextValue():
s=int(context.getInputValue())
语境。发出(上下文。getinputkey(),字符串)
运行任务(工厂(字计数映射器,字计数还原器))对简单任务,可以使用pydoop_script工具:
定义映射器(k,正文,作者):
对于text.split()中的单词:
writer.emit(word,1)
def还原剂(单词、计数、书写者):
writer.emit(word,sum(map(int,count)))参考:
下载:https://SourceForge。net/projects/pydoop/files
示例地址:http://pydoop。SourceForge。net/docs/examples/index。超文本标记语言
最新版下载:http://SourceForge。net/projects/Pydoop/files/Pydoop-0.5/Pydoop-0。5 .2-RC2。焦油。gz/下载
主页:http://sourceforge.net/apps/mediawiki/pydoop/index.php?标题=主页
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。